リンクは自由!

テキスト処理とコーパス言語学


コーパス言語学と自然言語処理

英語コーパス学会
計量国語学会
言語処理学会
言語資源協会
言語データベースとソフトウェア (国立国語研究所)
日本語コーパス 代表性を有する大規模日本語書き言葉コーパスの構築
前川喜久雄氏らによる科研費特定領域研究。
日本語学班
上記科研費特定領域研究内のグループ。
中納言
「現代日本語書き言葉均衡コーパス」検索アプリケーション。
少納言
「現代日本語書き言葉均衡コーパス」全文検索。
Nagoya University Corpus Project
「名古屋大学におけるインターネット時代に適応した英語教育の環境整備」コーパス班。
Internet Information Resources for Corpus Studies
同志社大学西納春雄氏による。
東京外国語大学投野由紀夫研究室
英語コーパス言語学。
言語イニシャティブ調査
JEITA(電子情報技術産業協会)言語処理技術専門委員会による。
日本大学文理学部英文学科塚本聡研究室
コーパス言語学(コンコーダンスプログラムを配布)など。
名古屋大学大学院国際開発研究科国際コミュニケーション専攻国際言語文化情報システム講座
コーパス言語学。滝沢研究室のコーパス研究や大名研究室の「Perl によるテキスト処理入門」など。
名古屋大学杉浦研究室
「Perl スクリプト集」など。
広島大学大学院総合科学研究科井上永幸研究室
英語コーパス言語学、辞書学。
神戸大学石川慎一郎研究室
英語コーパス言語学。
九州工業大学工学部田吹研究室
日英語の会話分析。ハイパーメディアコーパスプロジェクト。
日本語Corpus検索
韓国高麗大学校李漢燮氏ら。
コーパス日本語学のための情報館
李在鎬氏らによる。コーパスやツールの情報など。
McEnery & Wilson's Corpus Linguistics
WWW上でのコーパス言語学講義。東北大学大学院文学研究科言語学研究室に所在。
McEnery & Wilson's Corpus Linguistics
WWW上でのコーパス言語学講義。ランカスター大学サイト内。
小学館コーパスネットワーク
BNC Onlineと WordBanksOnline。有料、試用可。
言の場(ことのば)/LinguaPark
情報通信研究機構自然言語グループによる。日英対応付けコーパスなど。
EDR Home Page
旧(株)日本電子化辞書研究所の電子化辞書とコーパス。現在は通信総合研究所に所在。
ICAME (International Computer Archive of Modern and Medieval English)
UCREL Home Page
CORPUS.BYU.EDU
BYU-BNC: BRITISH NATIONAL CORPUS
British National Corpus
BNCweb
American National Corpus (ANC)
Wordbanks Online
Collins WordbanksOnlineの試用。
Corpus Concordance Sampler
Collins WordbanksOnlineの試用。
Longman Web Dictionary
ロングマン社の英語辞書。
MICASE: Michigan Corpus of Academic Spoken English
オンラインサーチ可。
GlossaNet Online concordancer
Center for Electronic Texts in the Humanities
Linguistic Data Consortium
Corpus Encoding Standards
Linguistic Data Resources on the Internet
Summer Institute of Linguisticsによるリンク集。
Oxford Text Archive
学術的電子テキストアーカイブの草分け。
Project Gutenberg Home Page
電子図書館プロジェクト・グーテンベルグ。
The Online Books Page
ペンシルベニア大学John Mark Ockerbloom 氏による。
Fullbooks.com
詳細不明だが。
Literature Online
会員制の文学テキストサイト。
IntraText Digital Library
"Full-text Digital Library committed to accessibility, usability and accuracy, offering texts and corpora as lexical hypertextsi"。主にヨーロッパの諸言語が対象。
Bookmarks for Corpus-based Linguists
David Lee氏による。
多言語処理・コーパス
松村一登氏による。ウラル諸語の電子化やUnicodeツールのダウンロードなど。
麗澤大学言語研究センター言語情報学プロジェクト
ワークショップの開催などの活動。リンク集も豊富。
千葉庄寿さん
電子コーパス (テキストデータベース) を使った言語研究。ツールのダウンロードなど。
国語の先生の為の正規表現
zacoさん。
内山将夫さん
日英語分析のソフトウェアとコーパスなど。

ソフトウェア

「インターネット言語学情報 第23回 ソフトウェア」
後藤、『月刊言語』第28巻(1999)11月号, pp.86-87.
「言語学 オン ザ WEB 第7回 テキスト・ツール」
後藤、『月刊言語』第33巻(2004)7月号, pp.76-77.
コーパス・言語分析ツールサイト Lago
AKA-san. TEXT Finderはフリーウェアの日本語対応コンコーダンサ。
Lago Institute of Language
赤瀬川史朗氏。WebベースのコーパスシステムWordProfilerやフリーウェアTXTANA Learning Editionなど。
AntConc
Laurence Anthony氏によるコンコーダンスツール。
WordSmith
Oxford University Pressによるコンコーダンスツール。
神戸フェニックスラボ
シェアウェアのコンコーダンサCorpus Wizardの配布。
Vector 文書作成: テキストエディタ
Vector ユーティリティ: テキストファイル用
WWW上の音声言語処理に関する情報 日本国内へのリンク
徳島大学工学部北研究室。
松本研究室 自然言語処理のためのツール
形態素解析システム茶筌など。奈良先端科学技術大学院大学自然言語処理学講座による。
ChaSen
形態素解析システム。
自然言語処理のためのリソース
日本語形態素解析システム JUMANなど。 京都大学情報学研究科知能情報学専攻知能メディア講座言語メディア研究室による。
KH Coder
計量テキスト分析ツール。

日本語テキスト

「インターネット言語学情報 第11回 古典テキスト」
後藤、『月刊言語』第27巻(1998)11月号, pp.112-113.
国文学研究資料館本文データ検索システム
日本古典文学大系本文データベース(旧版)検索の試験的システム。
J-TEXTS 日本文学電子図書館
菊池真一氏らによる。
電子化された日本語テキスト
明星大学柴田雅生研究室による。
日本文学等テキストファイル
岡島昭浩さんによる日本文学を中心とする電子化テキストへのリンク集
日本文学関係テキストファイル等(作品別・五十音順)
甲南女子大学菊池さんによる。
日本語テキストイニシアチブ
バージニア大学・ピッツバーグ大学のプロジェクト。
国会会議録検索システム
帝国議会会議録も部分的に検索可能。
青空文庫
著作権消滅作品等の電子出版の提案と公開。 [ミラーサイト]
小松左京コーパス
小松左京作品の検索など(要会員登録)。
加藤秀俊データベース
加藤秀俊氏の著作目録と一部テキスト。
日本ペンクラブ電子文藝館
物故会員、現会員の作品を電子化。
書籍デジタル化委員会
nani氏らによる著作権消滅作品の電子図書館。
昼夜積読乱読期
文学リンク他。
(社)著作権情報センター

電子出版・書店

電子書庫パブリ
角川書店、講談社、光文社、集英社、新潮社、中央公論社、徳間書店、文芸春秋ほかが参加。
電子書店パピレス
草分け的存在。
Bitway-books
トッパンが運営。
ウェブの書斎
大日本印刷が運営。
理想書店
Voyager Japanが運営。
honya.com
「これまで読者に出会うことが難しかったさまざまなテキストを、広く読み手に販売・提供」
電子書籍という潮流
検索システム、最大と自負するリンク集(電子書籍関係への道標 )も。
EB series support page
個人で電子書籍・電子辞書を作成するためのツール集。
電子書籍の快楽 (文市(あやち)=青野宣昭さん)
一般読者の立場から。
日本電子出版協会
電子出版データベースなど。

電子雑誌・新聞

国内雑誌へのリンク集 (名古屋大学附属図書館)
学術雑誌が多いが、それ以外も。
キカンシ・ネット (Science Portal)
公的機関の機関誌・広報誌。
Webで読む機関誌 (Science Portal)
自然科学系広報誌。
A's Mag PLATZ 雑誌編
商業雑誌やオンラインマガジンへのリンク集

文字コード

(社)情報処理学会情報規格調査会文字コード標準体系専門委員会
関連文献資料やリンク集など。
「文字の海、ビットの舟」―― 文字コードが私たちに問いかけるもの
小形克宏さんによる。
能登印刷株式会社 出力ガイド
コード間の不整合に関する詳しい解説。
日本語と文字コード
神崎正英さんによる。
国語の先生の為の文字コード詳説
zacoさんによる。
文字コード最新リンク2004
小室暁生さん。
Character Test
ウェブブラウザの表示のテスト。
Ken Lundeさん
CJKV Information Processingの著者。
Unicode Inc.
Unicodeの公式サイト。
Alan Wood’s Unicode Resources
フォント、ツールその他の実用情報。
花園フォント
すべてのUCS統合漢字・互換漢字を収録。

基本参考文献(日本語書きのもの)

コーパス言語学・計量言語学・テキスト分析

文字コード

テキストファイル主義・テキストツール

正規表現



後藤斉のホームページへ戻る

URL:http://www.sal.tohoku.ac.jp/~gothit/textprocessing.html
2012-01-16T13:52:20+09:00
All Rights Reserved. COPYRIGHT(C) 2000-2012, GOTOO Hitosi
Department of Linguistics
Faculty of Arts and Letters, Tohoku University
Aoba-ku, Kawauti 27-1
980-8576 Sendai, Japan

〒980-8576 仙台市青葉区川内27番1号 東北大学大学院文学研究科言語学研究室
後藤 斉 (E-mail: gothit@sal.tohoku.ac.jp)
後藤にメールを送られる方へ