リンクは自由!

テキスト処理とコーパス言語学


コーパス言語学と自然言語処理

英語コーパス学会
計量国語学会
言語処理学会
国立国語研究所
言語データベースとソフトウェア
コーパス開発センター
現代日本語書き言葉均衡コーパス (BCCWJ)
前川喜久雄氏らによる科研費特定領域研究。
中納言
「現代日本語書き言葉均衡コーパス」検索アプリケーション。
少納言
「現代日本語書き言葉均衡コーパス」全文検索。
NINJAL-LWP for BCCWJ
プラシャント・パルデシ氏らによるレキシカルプロファイリングによる検索ツール。
NINJAL-LWP for TWC
筑波コーパスのためのレキシカルプロファイリングによる検索ツール。
学習者コーパスに基づく第二言語としての日本語の習得研究
国立国語研究所 日本語教育研究領域による。
コーパスに基づく言語学教育研究拠点(CbLLE)
東京外国語大学のグローバルCOEプログラム(終了)。
大阪大学田野村忠温研究室
日本語語コーパス言語学。ツールの配布。
東京外国語大学投野由紀夫研究室
英語コーパス言語学。
日本大学文理学部英文学科塚本聡研究室
コーパス言語学(コンコーダンスプログラムを配布)など。
言語資源協会
SHACHI - Language Resource Search
情報通信研究機構・名古屋大学松原研究室による
ALAGIN 言語資源・音声資源サイト
情報通信研究機構
言語イニシアティブ調査
JEITA(電子情報技術産業協会)言語処理技術専門委員会による。
旧東京大学辻井潤一研究室
自然言語処理。
摂南大学後藤一章さん
ソフトウェア(tagger)の配布など。
広島大学大学院総合科学研究科井上永幸研究室
英語コーパス言語学、辞書学。
神戸大学石川慎一郎研究室
英語コーパス言語学。
日本語学習者作文コーパス
「自然言語処理の技術を利用したタグ付き学習者作文コーパスの開発」科研グループ(李在鎬氏ら)
九州工業大学工学部田吹研究室
日英語の会話分析。ハイパーメディアコーパスプロジェクト。
コーパス日本語学のための情報館
李在鎬氏らによる。コーパスやツールの情報など。
McEnery & Wilson's Corpus Linguistics
WWW上でのコーパス言語学講義。東北大学大学院文学研究科言語学研究室に所在。
小学館コーパスネットワーク
BNC Onlineと WordBanksOnline(有料、試用可)。無料コーパスもあり
EDR Home Page
旧(株)日本電子化辞書研究所の電子化辞書とコーパス。現在は通信総合研究所に所在。
ICAME (International Computer Archive of Modern and Medieval English)
英語コーパス研究の中心の一つ。
CLARIN
EU圏における言語資源の集積。
VARIENG (Research Unit for the Study of Variation, Contacts and Change in English)
各種コーパスの情報がまとめられている。Corpus Resource Database (CoRD)も。
UCREL (University Centre for Computer Corpus Research on Language)
ランカスター大学。研究の紹介のほか、各種コーパス、ツールなど。Corpus Query Processorも。
CORPUS.BYU.EDU
ブリガム・ヤング大学のオンライン・コーパス群。
BYU-BNC: BRITISH NATIONAL CORPUS
British National Corpus
Use of corpora in translation studies
Leeds大学での翻訳研究に関連したコーパス利用。英語、日本語ほかの言語のコーパス検索。
American National Corpus (ANC)
Wordbanks Online
Collins WordbanksOnlineについて。
Longman Dictionaries Online
ロングマン社の英語辞書。
MICASE: Michigan Corpus of Academic Spoken English
オンラインサーチ可。
GlossaNet Online concordancer
Center for Electronic Texts in the Humanities
Linguistic Data Consortium
ELRA (European Language Resources Association)
The Rosetta Project
Corpus Encoding Standards
Linguistic Data Resources on the Internet
Summer Institute of Linguisticsによるリンク集。
Oxford Text Archive
学術的電子テキストアーカイブの草分け。
Project Gutenberg Home Page
電子図書館プロジェクト・グーテンベルグ。
The Online Books Page
ペンシルベニア大学John Mark Ockerbloom 氏による。
Fullbooks.com
詳細不明だが。
Literature Online
会員制の文学テキストサイト。
IntraText Digital Library
"Full-text Digital Library committed to accessibility, usability and accuracy, offering texts and corpora as lexical hypertextsi"。主にヨーロッパの諸言語が対象。
Bookmarks for Corpus-based Linguists
David Lee氏による。
多言語処理・コーパス
松村一登氏による。ウラル諸語の電子化やUnicodeツールのダウンロードなど。
麗澤大学言語研究センター言語情報学プロジェクト
ワークショップの開催などの活動。リンク集も豊富。
千葉庄寿さん
電子コーパス (テキストデータベース) を使った言語研究。ツールのダウンロードなど。
国語の先生の為の正規表現
zacoさん。
内山将夫さん
日英語分析のソフトウェアとコーパスなど。
日本語表現インフォ
青空文庫の分析。「日本語コロケーション辞典 テスト版」も。

ソフトウェア

「インターネット言語学情報 第23回 ソフトウェア」
後藤、『月刊言語』第28巻(1999)11月号, pp.86-87.
「言語学 オン ザ WEB 第7回 テキスト・ツール」
後藤、『月刊言語』第33巻(2004)7月号, pp.76-77.
AntConc
Laurence Anthony氏によるコンコーダンスツール。
WordSmith
Oxford University Pressによるコンコーダンスツール。
Vector 文書作成: テキストエディタ
Vector ユーティリティ: テキストファイル用
WWW上の音声言語処理に関する情報 日本国内へのリンク
徳島大学工学部北研究室。
松本研究室 自然言語処理のためのツール
形態素解析システム茶筌など。奈良先端科学技術大学院大学自然言語処理学講座による。
ChaSen
形態素解析システム。
自然言語処理のためのリソース
日本語形態素解析システム JUMANなど。 京都大学情報学研究科知能情報学専攻知能メディア講座言語メディア研究室による。
KH Coder
計量テキスト分析ツール。

日本語テキスト

「インターネット言語学情報 第11回 古典テキスト」
後藤、『月刊言語』第27巻(1998)11月号, pp.112-113.
国文学研究資料館大系本文(日本古典文学・噺本)データベース
岩波書店刊旧版「日本古典文学大系」と東京堂出版刊「噺本大系」の全文検索とテキスト閲覧。
J-TEXTS 日本文学電子図書館
菊池真一氏らによる。
電子化された日本語テキスト
明星大学柴田雅生研究室による。
日本文学等テキストファイル
岡島昭浩さんによる日本文学を中心とする電子化テキストへのリンク集
日本語テキストイニシアチブ
バージニア大学・ピッツバーグ大学のプロジェクト。
国会会議録検索システム
帝国議会会議録も部分的に検索可能。
青空文庫
著作権消滅作品等の電子出版の提案と公開。
小松左京コーパス
小松左京作品の検索など(要会員登録)。
加藤秀俊データベース
加藤秀俊氏の著作目録と一部テキスト。
日本ペンクラブ電子文藝館
物故会員、現会員の作品を電子化。
(社)著作権情報センター

文字コード

JIS検索
日本工業標準調査会による。[X0208]
文字情報基盤整備事業
独立行政法人情報処理推進機構。行政で用いられる文字の整備。
能登印刷株式会社 出力ガイド
コード間の不整合に関する詳しい解説。
安岡孝一さん
論文や雑誌記事の再録など。
文字コード入門
山田崇仁さんによる。
日本語と文字コード
神崎正英さんによる。
国語の先生の為の文字コード詳説
zacoさんによる。
Character Test
ウェブブラウザの表示のテスト。
Ken Lundeさん
CJKV Information Processingの著者。
Unicode Consortium
Unicodeの公式サイト。
Alan Wood's Unicode Resources
フォント、ツールその他の実用情報。
Babelmap
Unicodeツール。別にエディターBabelpadもあり。
花園フォント
すべてのUCS統合漢字・互換漢字を収録。
学術情報交換用変体仮名
情報処理推進機構(IPA)と国立国語研究所(NINJAL)が共同で開発。

基本参考文献

日本語書きで、市販されたもの。

コーパス言語学全般

2011年以降。

コーパス言語学・計量言語学・テキスト分析

2010年以前。

文字コード

テキストファイル主義・テキストツール

正規表現



後藤斉のホームページへ戻る

URL:http://www.sal.tohoku.ac.jp/~gothit/textprocessing.html
2016-11-07T14:17:40+09:00
All Rights Reserved. COPYRIGHT(C) 2000-2016, GOTOO Hitosi
Department of Linguistics
Faculty of Arts and Letters, Tohoku University
Aoba-ku, Kawauti 27-1
980-8576 Sendai, Japan

〒980-8576 仙台市青葉区川内27番1号 東北大学大学院文学研究科言語学研究室
後藤 斉 (E-mail:gothit@m.tohoku.ac.jp)
後藤にメールを送られる方へ