リンクは自由!
第111回日本言語学会大会(1995年10月15日、東北大学)発表要旨

コーパスとしての新聞記事テキストデータ
―終助詞「かしら」をめぐって―

後藤 斉 (ごとう ひとし)
(gothit/at/tohoku.ac.jp)
東北大学文学部

本研究は、日本語のコーパス研究の資料体として近年使われることの多くなってい る新聞記事テキストデータについて、その言語資料としての性格を論じたもので ある。

コーパス言語学は英語を対象にして約30年前に生まれたが、日本語を対象にしたコ ーパス研究が文系の研究者にとって現実的になったのはここ数年のことに過ぎない。 いまだ方法論的には未整備の点が多いと言わざるを得ない。なかでも欠けているのは コーパスの設計に関する議論である。英語のコーパス言語学では早くから多様なジャ ンルのテキストからサンプルを取ってくる種類のコーパスが開発されたため、新聞記 事をそのままの形で資料体として用いることはあまりない。むしろ出典の多様性を確 保することの重要性は英語コーパス言語学での共通認識になっていると見られる。

文系の研究者による日本語のコーパス研究は、現在のところ、その多くが新聞記事 のテキストデータを資料体として利用している。新聞記事のテキストが現時点で入手 しやすい日本語の電子化テキストの代表であることは間違いなく、新聞記事を擬似的 なサンプルコーパスと見做して作業を行うことは現実的な選択である。しかし、これ は現実ないし便宜との妥協である。このような妥協が必要であるにしても新聞記事テ キストデータが現代日本語のの資料としてどういう性格をもっているのか、言語研究 にとってどのように使うのが適当であるのか、といった吟味をないがしろにすること はできない。

本研究では、新聞記事の言語資料としての性格を知るために、終助詞「かしら」を とりあげる。周知のとおりこれは典型的な女性語であるが、そのためにその使用が話 し手(書き手)社会的要因と大きく相関しているために、新聞記事の文章の性格を判 断する指標を提供すると考えられるからである。まず、「CD-毎日新聞 '93」から終 助詞「かしら」を検索し、それを文脈を考慮して分析した。

「かしら」の現れ方にはいくつかの傾向が見られる。投稿欄において女性が筆者で ある文章に「かしら」が頻出するが、これは不思議ではない。「かしら」が現代日本 語において典型的な女性語であることの確認にすぎない。また、インタビュー記事な どにおいて女性の発言の中に現れているのも同様のように思われる。しかし、ここで 外国人女性の発言にも「かしら」が現れていることに注目しなくてはならない。その 外国人女性が適切な女性語の使用も含めて日本語に堪能であり、文章が実際に話した 通りであるという可能性はゼロではないが、考えにくい。むしろ、実際のインタビュ ーは外国語で行われていたが、女性らしさを出そうとして記者ないし編集者の側で日 本語で記事をまとめるときに付け加えたのではないかと想像される。そうだとすれば 言語資料として厳密に考えれば、捏造されたものとさえ言える。そのほかに少数では あるが、女性に限定されない不特定多数の人の発言や男性の発言のなかにも「かしら 」が現れることがある。これも新聞社の側での捏造の可能性はあるが、ここでは動機 が考えにくい。非女性語としての「かしら」の使用例が得られたものと考えてよい。

以上の観察から新聞記事テキストデータの資料性に関してつぎのようなことが言える 。署名記事や投稿の部分を除けば、新聞のテキストデータは新聞社の責任で整理され た言語で書かれていると考えるべきである。編集者の方針にしたがって特定の表現の 使用が増幅あるいは減衰されているのである。すなわち、現代日本語の多様な使われ 方を代表するサンプルコーパスと見なすことは難しいのである。新聞記事テキストデ ータはそのような性格を踏まえた上で適切な使用をすべきである。


URL:https://www2.sal.tohoku.ac.jp/~gothit/kasira.html
All Rights Reserved. COPYRIGHT(C) 1995-2006, GOTOO Hitosi
Dept. of Linguistics
Faculty of Arts and Letters, Tohoku University
Aoba-ku, Kawauti 27-1
980-8576 Sendai, Japan

〒980-8576 仙台市青葉区川内27番1号 東北大学大学院文学研究科言語学研究室
後藤 斉 (E-mail:gothit/at/tohoku.ac.jp)
後藤にメールを送られる方へ