リンクは自由!
『日本語学』第22巻(2003)4月臨時増刊号「コーパス言語学」, pp.6-15 掲載

言語理論と言語資料 ―コーパスとコーパス以外のデータ

後藤 斉


1. コーパスとは何か

言語の研究に関して「コーパス」ということを目にすることが増えているが、 その概念の理解は必ずしも十分に広まっているとはいえない。まずそれを 整理しておくことが必要であろう。

「コーパス」という語は英語のcorpusに由来し、これはさらにラテン語 corpus「体」(発音はコルプス)に発する。この語は文字通りの意味から転じて、 比較的早くから『ローマ法大全』Corpus Iuris Civilisのように「資料の総体」を 意味して使われ、この用法でヨーロッパ各国語に取り入れられた。特定のテキスト (音声言語を転写した資料を含む)のみに依拠して研究が行われるような場合には、 それをその研究におけるコーパスと呼ぶことになり、これが最も広い意味での コーパスである。特定のテキストに基づく研究は決して目新しいものではない。 それどころか日本でも世界の各地でも言語研究の萌芽は古典文学や聖典など 所与の文献のテキストを研究することにあり、それは長い伝統を形作ってきたし、 1950年代までのアメリカ構造主義言語学においても、一定のコーパスを設定し、 そのなかで音素分析や形態素分析を行うことは、その理論的要請からしてむしろ 当然のことであった(ロウビンズ 1992)。現代語の文法研究や語彙の研究においても 一定のテキスト群に基づく研究がごく普通に見られることは改めて言うまでもない。

二十世紀後半にコンピュータが発達し、計算機から次第にデータ処理機械としての 性格を帯びるようになるにつれて、1960年代にアメリカで言語分析への応用が 始められた。大量のデータを一定の手順で扱うのは正にコンピュータの得意とする ところだからである。クチェラらによるブラウンコーパス (1967)がそのはしりであり、 これ以降「コーパス」は、主にコンピュータによる処理を前提とした機械可読の テキスト、電子(化)テキストの大規模な集合として理解されるのが普通になる。 これを現代的な意味での広義のコーパスとみなすことができる。

それでは、コンピュータを使う研究は、伝統的な研究とはどこが違うのか。 それはまずはテキストの範囲の大規模性とその範囲内での網羅性にある。 コンピュータは疲れを知らないため、テキストの量をいくらでも拡大できるし、 何度も繰り返して調査することができる。また、誤りもほとんど発生しない (誤るとすればその原因は大抵データそのものの誤りか、処理手順の指示の誤りで ある)。人手によって行うのに比べて能率や精度が比較にならないのである。 したがってコンピュータの利用は語彙索引の作成や頻度調査、統計処理には極めて 適している。この種の研究手法を指して計量言語学と呼ぶ(伊藤(2002)を参照)。 隣接の分野として、主に工学的な関心から機械翻訳や自動要約などの より実際的な応用を目指す自然言語処理もある。

ここで、もう一つの違いを確認しておくことも必要である。テキスト志向か 言語志向か、すなわち、関心の対象がテキスト自体にあるのか、言語にあるのかという 違いである。伝統的な研究方法では、特定のテキスト(例えば特定の文学作品や 作品群)に主たる関心があることが多く、それを研究する補助手段として 語彙索引や語彙の頻度表を作成したのであった。このような関心をもって コンピュータを利用することももちろん可能であり、実際、現在では多くの作品の 語彙索引がコンピュータを利用して作られて、作家や作品の文体研究などに 応用されている。それに対して、テキストを言語の体系や機能を研究する 手がかりとして位置づける態度も可能である。テキスト中である語句を検索するとして、 それがどこ(原文の何ページの何行目)に現れるかによりは、むしろそれが どのような環境で現れるか(他のどのような語句と隣接するか、どのような 文法カテゴリーと共起するか、どのような話者がどのような状況で発するか)に関心を 持つ。コーパスからは例えばある語句の頻度が数値的なデータとして得られるが、 それはテキスト自体の性格づけに使われるというよりは、その要因を言語体系や 言語機能といったより大きな文脈の中で探り、当該言語への理解を深めようとする 方向で利用される。コーパス言語学という呼び方はこのような立場に限定して 使うのが普通である。

このような考え方に立つと、コーパスはそれ自体で価値があるというより、 言語のサンプルとして位置づけられることになる。そうすると、コーパスに採用される テキストの選択も、個別のテキストの性質によってというより、全体としての 構成が研究対象となる言語(ないしは言語の変種)をよりよく代表する集合に なるようにとの配慮に基づかなければならない(あるいは、少なくともその方が 望ましい)ことになる。任意のテキストや入手の便利なものでよい訳ではなく、 あるいは名作とされる文学作品が適している訳でもないのである。 ブラウンコーパスが現在コーパスの古典と見なされているのは、それが単に 電子化コーパスの嚆矢であったというだけでなく、コーパスのデザイン(設計)の 重要性を示したという点にあった。後藤(1995)で紹介したように、 ブラウンコーパスでは、まず、サンプルを採集する母集団として1961年にアメリカで 印刷刊行された印刷物を考えた。そして、それを16のジャンル(新聞の報道記事、 論説記事、宗教書、実用書、さまざまな文芸など)に分け、それぞれに重みを与え、 そのジャンルごとに重みに比例した数のテキストの断片(一つあたり約2000語)を 全部で500集め、全体として約100万語のコーパスを構成したのである。 このブラウンコーパスの考え方は、その後のコーパス言語学の流れに大きな影響を 与えた。

この種の配慮をもって作られたコーパスはのちにバランスト・コーパスあるいは サンプル・コーパスと呼ばれることになる。「バランスのとれた」という概念には、 後述の通り、議論の余地が大いにある。しかし、ブラウンコーパスのアイデアは 英語圏で受け入れられ、ブラウンコーパスの形式にならったコーパスがいくつも 作られたし、直接それに従わないにしてもなんらかのコーパス・デザインを持った 多くのコーパスが開発された。このような意味で、言語研究に役立つようにとの 意図をもって、事前にコーパスの構成をデザインした上で集められた電子テキストの 集合がすなわち最も狭義のコーパスということになるが、英語コーパス言語学に おいてはこの意味で理解されることが多い。

「コーパス」という語はこのように広義から狭義にわたって数種類の理解の しかたをされるので注意が必要である。日本語に関しては最狭義のコーパスは極めて 少なく、比較的よく知られているものとして旧日本電子化辞書研究所による 「EDRコーパス」 (http://www.jsa.co.jp/EDR/J_index.html)がある。これ以外は同じくコーパスの名は つけられていても、テキストを集積した本来の理由が言語研究ではないので、 最狭義のコーパスには含まれないことになる。小松左京の全作品を集めた 「小松左京コーパス」(総合研究大学院大学ACI-Hayama: http://aci.soken.ac.jp/~sakyo/)や雑誌『太陽』の本文を電子化した「太陽コーパス」 (国立国語研究所)、1995年1月の毎日新聞の記事に形態素と構文の解析を加えた 「京都大学テキストコーパス」(京都大学情報学研究科言語メディア研究室: http://www-nagao.kuee.kyoto-u.ac.jp/nl-resource/corpus.html)などがそ れにあたる。近年はCD-ROMとして市販されている『新潮文庫の百冊』や新聞記事 テキストデータに基づく日本語の研究も見受けられるが、この場合も同様である。

2. コーパスの理論的背景

コンピュータで言語を扱うという意味でコーパス言語学は高度に技術的な側面を もっていることは事実である。コーパスを扱うにあたっては、文字コードや テキストファイルの概念は前提知識として不可欠であるし、種々のアプリケーション ソフトウェアやツール類の入手法や操作法など、ノウハウ的な知識も必要である。 しかしながら、コーパス言語学は単に小手先の技術ではなく、言語の研究方法としての 理論的な背景なしには存在し得ない。このことは特に英語を対象とする コーパス言語学で早くから強く意識されていた。コーパス言語学が定着した現在の 英語圏でさえ、概説書として最新のものに属する Meyer (2002)も第一章 「コーパス分析と言語学理論」から始めているほどである。

英語コーパス言語学が理論的背景について自覚的であったことには理由がある。 つまり、コーパスに基づいて言語に接近する研究法がそもそも有効かという疑問、 さらには無効であるとの主張が存在するからである。そのようなコーパス言語学への 懐疑は主として生成言語学の立場から示され、コーパス言語学がアメリカに 生まれながらその後むしろヨーロッパで盛んになったことの一因となった。

チョムスキーらによる生成言語学の立場からすると、言語学の目標は主として 母語話者がもつ個別言語の言語知識を説明すること、さらには人間が生得的に もっている言語を習得する能力およびその具体化としての普遍文法の在り方を 説明することである。ここにおいてデータとして重要視されるのは理想化された 母語話者の直観であり、逆に個別の具体的、表面的な言語使用はさまざまな 偶然的な要因に左右されるため、いくら集めてもデータとしての価値はないと みなされる。1950年代半ば以降盛んになった生成言語学はしたがって初期の コーパスの利用に対して冷淡であった。

チョムスキー理論に限らず、形式主義的文法研究では言語記号を操作して例文を 作ることはごく普通に行われる。ある理論を検証するために最適な例文は、 現実に左右される夾雑物が除かれている方が望ましく、それは内省に頼った 作例によって得るほうがずっと効率的である。それが端的に現れるのは非文である。 非文の利用は文法の研究において有益であるが、それは二世紀ごろの アポロニオス・デュスコロス『統語論』にまで遡る。彼は文の必須成分を示すために 八品詞すべてを含む文から一要素ずつ減らしていき、動詞が欠けると非文となることを 示した。このように、ある文法現象に注目しているとき、一箇所でのみ異なる文の ペアの文法性ないし適格性の判断が異なるということがよくあり、それがデータとして 研究の上で有益な論拠となることは多い。しかし、このようなデータはコーパスからは 求められないのであり、したがって、この種の言語研究にとってコーパスの利用は 魅力的ではない。

初期のコーパス言語学はこのような批判にさらされたため、アメリカではあまり 発達せず、それを引き継いだイギリスで理論武装を試みることになった。 これはイギリスの経験主義哲学の伝統と無縁ではなく、言語学理論としてはハリデーの 機能主義言語学との親縁性が指摘できる(ただしコーパス言語学全体がハリデー理論に 依拠している訳ではない)。その結果、よく引用される Leech (1992)にまとめられて いるように(斎藤(1998)も参照)、コーパス言語学は次のように特徴づけられる ことになる。

つまり、コーパス言語学は実際の言語使用の記述に重点をおき、論理構成としては 帰納法を主に用いることになる。そして、このような方向性での言語研究が 有効であり、反証可能性や簡潔性、客観性など科学的研究に要求される特徴を 備えていることが力説されることになる。この間に、辞書編集や文法記述に 利用されて、その有効性を実際にも示すことになった。

誤解されがちな点であるが、コーパス言語学は現実の言語運用の記述のみを 目指しているわけではない。実際の言語使用に基礎をおきつつ、それから帰納的に 得られた知見をどのように一般化し、理論化するかはそれぞれの研究者の判断に ゆだねられる。例えば、コーパスには言い間違いや言いよどみ、繰り返しなど 統語的には非文や容認不可能文と判断される文が現れる。そのような文を、 Aarts (1991)は、観察に基づく文法を構築しようとする際に除外してさしつかえない、 あるいは積極的に除外すべきであると述べるのである。

生成言語学的な考え方とコーパス言語学的な考え方とは、どちらが正しいという よりは、研究の目標をどのように設定し、言語のどの面に主な関心を寄せるかに 関係しているように思われる。データ自体はサンプルに関して得られたものであるが、 サンプルは言語体系・機能の顕現であって、そのあり方を知るための手がかりに なりうる。コーパスに基づきつつ、理論言語学に貢献する研究も可能である。 このような意味で、コーパス言語学は言語学の一分野というよりは方法論であって、 文法、語彙、音韻など、おそらく言語学のすべての分野に適用可能であり、 語用論、社会言語学、応用言語学、歴史言語学にも適用されている。なお、 コーパス言語学者の中には、さらに進んで、経験主義的な立場こそ言語学において 本流であるべきことを説くSampson (2001)もいる。

3. コーパスの利点

コンピュータコーパスが持つそれならではの利点についてはすでに言及したが、 他の種類のデータに基づく研究手法との違いをより詳しく検討してみよう。

まず第一に網羅性である。人間はどうしても長時間のうちには注意が散漫になって しまうので、大量のテキストについての悉皆調査は苦手である。コンピュータを 利用すればそのような心配はない。これは頻度の低い形式を捜す場合に特に 役に立つ。大量のデータの中からなら見つかる可能性が高まることが期待できる からである。単にある形式の有無を調べるのではなく、その頻度を定量的に知ることが でき、それをテキスト全体あるいは類似の他の形式と比較して、相対的な頻度を 知ることができることもコンピュータ利用の長所である。 例えば、対応する二形式の頻度が著しく違っていれば、どちらが無標の形式で あるかを判断する根拠になる。

さらに、対応する複数の形式の間で、頻度ばかりでなく、分布のしかたにも 偏りがみられることもある。類義の動詞の間で主語や目的語になれる名詞の範囲が 違っていたり、類義の形容詞の間で修飾する名詞の範囲が違っていたりするような 現象である。このような隣接して現れやすい語句の組み合わせをコロケーションと 呼ぶが、それはより細かい語義分析の助けになる。また、ある種の動詞が特定の 種類の副詞句や特定の時制や法などの文法カテゴリーと共起しやすいとすれば、 動詞を文法的に下位分類する根拠になろう。ある語の公文書での頻度と文学作品での 頻度に大きな違いがあれば、その語の位相による振る舞いの違いに帰せられよう。 この種のことはある程度まで内省によって知ることができるが、言語的文脈間での 分布の偏りを客観的に明確に示すことができるのはコーパスを用いる長所である。

なお、語義の分析については、国語辞書編集における見坊豪紀や山田忠雄と いった強い個性をもつ名前がすぐ思い浮かぶし、意味論における国広哲弥や 森田良行の業績も周知のものである。これらは、博覧強記と非網羅的な実例調査 および作例の組み合わせからデータを得ていたと言える。これらの業績の価値は 否定しようもないが、語彙の全体について博覧強記ぶりを発揮し、目に付いた あらゆる用例をカードに採集することは不可能に近い。全体として、良くも悪くも 個人の個性に依存する部分が大きい。コーパスの存在価値を減じることには ならないのである。

話者の出身や年齢、性別、発話の状況など、社会言語学的文脈の間にみられる 言語形式の分布の偏りも、コーパスに十分な情報が付加されている場合には、 客観的に示すことができ、このこともコーパスの長所としてあげることができる。 このような社会的な変異を個人の内省によって知ることは難しいし、社会的属性に よって画然と条件付けられているというよりはゆるやかな傾向として現れることが 普通であって、その傾向を個人の内省のみによって具体的に示すことは無理である。 社会言語学的研究においてはアンケート形式による言語使用意識調査も よくおこなわれており、多様な言語形式について一度に多くの人に対して調査する ことができ、被調査者の構成を事前にコントロールできる点で優れている。しかし、 意識調査の結果は実際の言語行動を反映しているとは限らないという難点がある。 コーパスのデータには現実の使用に基づくという安心感がある。

4. コーパス利用の問題点

このように言語の研究にコーパスを利用することには多くの長所があり、本号の 他の論文に例証されている通りであるが、理論的にそれに内在する問題点や 実際的な難点もまた考慮しておかなければならない。

狭義のコーパスにおけるコーパスのデザイン、特に、「バランスのとれたコーパス」 という考えは、サンプルの頻度から母集団の頻度を推計するという、統計学の 推計という概念に基づいている。直接知ることのできない母集団の性質を、 それを適正に代表するサンプルにおけるありさまを調査することによって、 推計するのである。しかし、言語において母集団とは何であろうか。言語は無限の 生産性を備えているため、この言語の文はこれですべてである、というリストの形で 示すことはできない。母集団は(最も単純に考えても)無限の文の集合である。一方、 コーパスは、いかに大規模であっても、所詮は有限である。無限の母集団を有限の サンプルで代表させるのであるから、コーパスには必ず偏りが存在するのであり、 「バランス」は完全な形では到達のしようがない。しかるべきデザインを 採用することによってなるべく適正な形で言語(の変種)を代表していることを 期待する訳だが、コーパスと言語との関係についてはコーパスを扱うとき常に 考えていなければならない。十分なデザインなく作成された広義のコーパスを 使うときはなおさらである。後藤(1997)に論じたコーパスの類型を参照されたい。

したがって、コーパスから得られたデータのうちどれをどのように解釈するかが 大事であるが、それはコーパスだけからは知りえないし、そのための経験則が 十分に蓄積されているとは言い難い。おそらく経験則としてはまとめきれないで あろう。コーパス全体のマクロな検討と個別の用例のミクロな検討は両立するのが 望ましいだろうが、折り合いをつけるのに苦労することもある。言語分析のセンスと 当該の言語についての広い知識が必要となることは当然であるが、大きな手間を 掛ける必要もでてくる。

コーパスの分析にあたっては、なんらかのソフトウェアを利用して語や文法形式を 検索することになるが、ソフトウェアは言語学的な単位を理解しているわけ ではない。自分が関心を持つ言語学的単位をソフトウェアにわかるような形式的な 表現(単純な文字列や正規表現)に翻訳しなければならないが、それは必ずしも 容易ではない。コーパスに文法タグがつけられていればかなり助かるが、 それでも自分の関心の対象を過不足なく表現できるとは限らない。検索結果を 形式の上から整理しなおすことはソフトウェアにまかせることができるが、 意味や機能といった形式化しにくい基準によって整理するためには結局は 人の手を借りざるをえないのである。ある形式を検索した結果が予想以上の多様性を 示すということは実はたびたびあり、膨大なデータを前にしてとまどってしまうと いうことになりかねない。

したがって、コーパス以外のデータとの付き合わせも必ず必要になる。日本で 新聞のテキストデータを分析したものとして最初期に属する遠藤(1990)が、 新聞記事での出現のパターンを古典から現代に至る文学作品での使用例や学生の 使用意識と対照した上で語誌としてまとめていたことは記憶すべきである。

より実際的な問題点はコーパスの入手に関してである。英語に関しては、一定の 手続きをとれば研究に使うために入手することが容易なサンプル・コーパスが いくつも存在する。それに対して日本語はそういう状況にはなく、多くの場合に 研究者それぞれが、コーパスを調整する必要がある。このとき原文の著作権、 特にそのうちの複製権に注意する必要がある。著作物は個人的な利用に関しては 例外的に権利者の許可なしでの複製が認められることがあるが、コーパスを大勢で 共同使用したり公開したりしたい場合には適切な著作権処理は欠かせない。 多様なテキストからなるコーパスを作成しようとするとき、実務的にはネックになる。

細かいことであるが、日本語の表記の性質について十分考慮しておく必要がある。 そもそもコーパスが書かれたテキストから成り立っている以上、表記に現れないものを 探る手掛かりにはできない。「うめる」と「うずめる」という類義語の違いを 調べようとしても、「埋める」という表記がどちらを意図しているかの判断は つきかねる例が大部分であろうから、調べようがない。このような場合は内省に ゆだねるのが賢明である。

また、検索する際には表記のゆれにも注意する必要がある。送り仮名のゆれや 漢字表記するか仮名に開くかの違い、外来語の音引きの有無や「バ」と「ヴァ」の ゆれなど、日本語には、正書法として許容されている表記のゆれが存在するし、 和語を意図的に片仮名表記するような、正書法からの逸脱も現実には見られる。 テキストによっては旧仮名遣いや旧字体が使われているかもしれないし、逆に 現代の若者言葉のコーパスを扱うとすると音引きが「〜」(やその繰り返し)で あったりするもっと大胆な表記に対処する必要がでてくるかもしれない。実は、 このほかに、電子テキストにはかなりの数の誤入力が存在するのが常である。 平仮名の「へ」と片仮名の「ヘ」、音引きの「ー」とダッシュ「―」や 漢数字ゼロ「〇」と白丸「○」などはワープロの入力で取り違えられることがあり、 『新潮文庫の百冊』や『新潮文庫大正の文豪』のような著名出版社による市販の 電子データでさえ例外ではない。このような表記のゆれや誤入力にどう対処するかを 決めておかなければ、せっかくの大量のデータからの網羅的な検索が名前だけのものに なりかねない。

5. まとめ

コーパスに基づく日本語の研究をより有意義なものにするためには解決すべき 課題は大きく、直ちにすべてを解決することはできない。理論的に解決できない 問題もあって、コーパスの利用を過信することはできない。しかし、コーパスを 侮ることもまた当を失している。コーパスは言語に迫るための有効な手段の一つで あり、従来使われてきたデータからは得られなかった、新しい知見を与えて くれるものと言うことができる。

参考文献


copyright GOTOO Hitosi 2003
著作権法規に則って利用することができます。



「後藤斉の主な著作」に戻る
後藤斉のホームページへ戻る

URL:https://www2.sal.tohoku.ac.jp/~gothit/nhnggk0304.html
All Rights Reserved. COPYRIGHT(C) 2003-2009, GOTOO Hitosi
Department of Linguistics
Faculty of Arts and Letters, Tohoku University
Aoba-ku, Kawauti 27-1
980-8576 Sendai, Japan

〒980-8576 仙台市青葉区川内27番1号 東北大学大学院文学研究科言語学研究室
後藤 斉 (E-mail:gothit/at/tohoku.ac.jp)
後藤にメールを送られる方へ