リンクは自由!
テキスト処理とコーパス言語学
コーパス言語学と自然言語処理
- 英語コーパス学会
- 計量国語学会
- 言語処理学会
- 言語資源協会
- 言語データベースとソフトウェア (国立国語研究所)
- 日本語コーパス 代表性を有する大規模日本語書き言葉コーパスの構築
- 前川喜久雄氏らによる科研費特定領域研究。
- 日本語学班
- 上記科研費特定領域研究内のグループ。
- 中納言
- 「現代日本語書き言葉均衡コーパス」検索アプリケーション。
- 少納言
- 「現代日本語書き言葉均衡コーパス」全文検索。
- Nagoya University Corpus Project
- 「名古屋大学におけるインターネット時代に適応した英語教育の環境整備」コーパス班。
- Internet Information Resources for Corpus Studies
- 同志社大学西納春雄氏による。
- 東京外国語大学投野由紀夫研究室
- 英語コーパス言語学。
- 言語イニシャティブ調査
- JEITA(電子情報技術産業協会)言語処理技術専門委員会による。
- 日本大学文理学部英文学科塚本聡研究室
- コーパス言語学(コンコーダンスプログラムを配布)など。
- 名古屋大学大学院国際開発研究科国際コミュニケーション専攻国際言語文化情報システム講座
- コーパス言語学。滝沢研究室のコーパス研究や大名研究室の「Perl によるテキスト処理入門」など。
- 名古屋大学杉浦研究室
- 「Perl スクリプト集」など。
- 広島大学大学院総合科学研究科井上永幸研究室
- 英語コーパス言語学、辞書学。
- 神戸大学石川慎一郎研究室
- 英語コーパス言語学。
- 九州工業大学工学部田吹研究室
- 日英語の会話分析。ハイパーメディアコーパスプロジェクト。
- 日本語Corpus検索
- 韓国高麗大学校李漢燮氏ら。
- コーパス日本語学のための情報館
- 李在鎬氏らによる。コーパスやツールの情報など。
- McEnery & Wilson's Corpus Linguistics
- WWW上でのコーパス言語学講義。東北大学大学院文学研究科言語学研究室に所在。
- McEnery & Wilson's Corpus Linguistics
- WWW上でのコーパス言語学講義。ランカスター大学サイト内。
- 小学館コーパスネットワーク
- BNC Onlineと WordBanksOnline。有料、試用可。
- 言の場(ことのば)/LinguaPark
- 情報通信研究機構自然言語グループによる。日英対応付けコーパスなど。
- EDR Home Page
- 旧(株)日本電子化辞書研究所の電子化辞書とコーパス。現在は通信総合研究所に所在。
- ICAME (International Computer Archive of Modern and Medieval English)
- UCREL Home Page
- CORPUS.BYU.EDU
- BYU-BNC: BRITISH NATIONAL CORPUS
- British National Corpus
- BNCweb
- American National Corpus (ANC)
- Wordbanks Online
- Collins WordbanksOnlineの試用。
- Corpus Concordance Sampler
- Collins WordbanksOnlineの試用。
- Longman Web Dictionary
- ロングマン社の英語辞書。
- MICASE: Michigan Corpus of Academic Spoken English
- オンラインサーチ可。
- GlossaNet Online concordancer
- Center for Electronic Texts in the Humanities
- Linguistic Data Consortium
- Corpus Encoding Standards
- Linguistic Data Resources on the Internet
- Summer Institute of Linguisticsによるリンク集。
- Oxford Text Archive
- 学術的電子テキストアーカイブの草分け。
- Project Gutenberg Home Page
- 電子図書館プロジェクト・グーテンベルグ。
- The Online Books Page
- ペンシルベニア大学John Mark Ockerbloom 氏による。
- Fullbooks.com
- 詳細不明だが。
- Literature Online
- 会員制の文学テキストサイト。
- IntraText Digital Library
- "Full-text Digital Library committed to accessibility, usability
and accuracy, offering texts and corpora as lexical hypertextsi"。主にヨーロッパの諸言語が対象。
- Bookmarks for Corpus-based Linguists
- David Lee氏による。
- 多言語処理・コーパス
- 松村一登氏による。ウラル諸語の電子化やUnicodeツールのダウンロードなど。
- 麗澤大学言語研究センター言語情報学プロジェクト
- ワークショップの開催などの活動。リンク集も豊富。
- 千葉庄寿さん
- 電子コーパス (テキストデータベース) を使った言語研究。ツールのダウンロードなど。
- 国語の先生の為の正規表現
- zacoさん。
- 内山将夫さん
- 日英語分析のソフトウェアとコーパスなど。
ソフトウェア
- 「インターネット言語学情報 第23回 ソフトウェア」
- 後藤、『月刊言語』第28巻(1999)11月号, pp.86-87.
- 「言語学 オン ザ WEB 第7回 テキスト・ツール」
- 後藤、『月刊言語』第33巻(2004)7月号, pp.76-77.
- コーパス・言語分析ツールサイト Lago
- AKA-san. TEXT Finderはフリーウェアの日本語対応コンコーダンサ。
- Lago Institute of Language
- 赤瀬川史朗氏。WebベースのコーパスシステムWordProfilerやフリーウェアTXTANA Learning Editionなど。
- AntConc
- Laurence Anthony氏によるコンコーダンスツール。
- WordSmith
- Oxford University Pressによるコンコーダンスツール。
- 神戸フェニックスラボ
- シェアウェアのコンコーダンサCorpus Wizardの配布。
- Vector 文書作成: テキストエディタ
- Vector ユーティリティ: テキストファイル用
- WWW上の音声言語処理に関する情報 日本国内へのリンク
- 徳島大学工学部北研究室。
- 松本研究室 自然言語処理のためのツール
- 形態素解析システム茶筌など。奈良先端科学技術大学院大学自然言語処理学講座による。
- ChaSen
- 形態素解析システム。
- 自然言語処理のためのリソース
- 日本語形態素解析システム JUMANなど。 京都大学情報学研究科知能情報学専攻知能メディア講座言語メディア研究室による。
- KH Coder
- 計量テキスト分析ツール。
日本語テキスト
- 「インターネット言語学情報 第11回 古典テキスト」
- 後藤、『月刊言語』第27巻(1998)11月号, pp.112-113.
- 国文学研究資料館本文データ検索システム
- 日本古典文学大系本文データベース(旧版)検索の試験的システム。
- J-TEXTS 日本文学電子図書館
- 菊池真一氏らによる。
- 電子化された日本語テキスト
- 明星大学柴田雅生研究室による。
- 日本文学等テキストファイル
- 岡島昭浩さんによる日本文学を中心とする電子化テキストへのリンク集
- 日本文学関係テキストファイル等(作品別・五十音順)
- 甲南女子大学菊池さんによる。
- 日本語テキストイニシアチブ
- バージニア大学・ピッツバーグ大学のプロジェクト。
- 国会会議録検索システム
- 帝国議会会議録も部分的に検索可能。
- 青空文庫
- 著作権消滅作品等の電子出版の提案と公開。
[ミラーサイト]
- 小松左京コーパス
- 小松左京作品の検索など(要会員登録)。
- 加藤秀俊データベース
- 加藤秀俊氏の著作目録と一部テキスト。
- 日本ペンクラブ電子文藝館
- 物故会員、現会員の作品を電子化。
- 書籍デジタル化委員会
- nani氏らによる著作権消滅作品の電子図書館。
- 昼夜積読乱読期
- 文学リンク他。
- (社)著作権情報センター
電子出版・書店
- 電子書庫パブリ
- 角川書店、講談社、光文社、集英社、新潮社、中央公論社、徳間書店、文芸春秋ほかが参加。
- 電子書店パピレス
- 草分け的存在。
- Bitway-books
- トッパンが運営。
- ウェブの書斎
- 大日本印刷が運営。
- 理想書店
- Voyager Japanが運営。
- honya.com
- 「これまで読者に出会うことが難しかったさまざまなテキストを、広く読み手に販売・提供」
- 電子書籍という潮流
- 検索システム、最大と自負するリンク集(電子書籍関係への道標 )も。
- EB series support page
- 個人で電子書籍・電子辞書を作成するためのツール集。
- 電子書籍の快楽 (文市(あやち)=青野宣昭さん)
- 一般読者の立場から。
- 日本電子出版協会
- 電子出版データベースなど。
電子雑誌・新聞
- 国内雑誌へのリンク集 (名古屋大学附属図書館)
- 学術雑誌が多いが、それ以外も。
- キカンシ・ネット (Science Portal)
- 公的機関の機関誌・広報誌。
- Webで読む機関誌 (Science Portal)
- 自然科学系広報誌。
- A's Mag PLATZ 雑誌編
- 商業雑誌やオンラインマガジンへのリンク集
文字コード
- (社)情報処理学会情報規格調査会文字コード標準体系専門委員会
- 関連文献資料やリンク集など。
- 「文字の海、ビットの舟」―― 文字コードが私たちに問いかけるもの
- 小形克宏さんによる。
- 能登印刷株式会社 出力ガイド
- コード間の不整合に関する詳しい解説。
- 日本語と文字コード
- 神崎正英さんによる。
- 国語の先生の為の文字コード詳説
- zacoさんによる。
- 文字コード最新リンク2004
- 小室暁生さん。
- Character Test
- ウェブブラウザの表示のテスト。
- Ken Lundeさん
- CJKV Information Processingの著者。
- Unicode Inc.
- Unicodeの公式サイト。
- Alan Wood’s Unicode Resources
- フォント、ツールその他の実用情報。
- 花園フォント
- すべてのUCS統合漢字・互換漢字を収録。
基本参考文献(日本語書きのもの)
コーパス言語学・計量言語学・テキスト分析
文字コード
テキストファイル主義・テキストツール
- Dougherty, Dale & A. Robbins, 福崎俊博訳 1997『sed & awk プログラミング』改訂版 オライリージャパン.
- SE編集部編 1992 『MS-DOSテキストデータ料理学』翔泳社.
- アスキー書籍編集部編著 1987-88 『MS-DOSを256倍使うための本 Vol. 1-3』アスキー.
- 伊藤博康 1991 『入門JGAWK』エーアイ出版.
- 伊藤博康 1992 『JGAWKスクリプト集』エーアイ出版.
- 伊藤博康 2001 『テキスト処理とCGIのためのPerlプログラミング』エーアイ出版.
- 岩谷宏 2002 『Javaによるテキスト処理入門』 ソフトバンク.
- エイホ, A.V.他 1989 『プログラミング言語awk』トッパン.
- 志村拓他 1993 『AWKを256倍使うための本』 アスキー出版局.
- 中島靖 1997 『日本語TEXT加工実践ガイドブック』情報管理.
- 中島靖 1997 『日本語TEXT加工実用レファレンス』情報管理.
- 中島靖 1998 『Perl使いへの旅立ち―日本語TEXT加工入門ガイドブック 改訂新版』情報管理.
- 平山直之 1995 『テキストツールのテキスト』メロン出版.
- 平山直之 1996 『Perl's パラダイス』メロン出版.
- 藤岡和夫 2004 『実践実用Perl』 毎日コミュニケーションズ.
- 美吉明浩 1998 『Grep Sed Awk』秀和システム.
- 目黒編集室 2004 『これだけで身につく Perl入門 例題80』日経BPソフトプレス.
正規表現
後藤斉のホームページへ戻る
URL:http://www.sal.tohoku.ac.jp/~gothit/textprocessing.html
2012-01-16T13:52:20+09:00
All Rights Reserved. COPYRIGHT(C) 2000-2012, GOTOO Hitosi
Department of Linguistics
Faculty of Arts and Letters, Tohoku University
Aoba-ku, Kawauti 27-1
980-8576 Sendai, Japan
〒980-8576 仙台市青葉区川内27番1号 東北大学大学院文学研究科言語学研究室
後藤 斉 (E-mail: gothit@sal.tohoku.ac.jp)
後藤にメールを送られる方へ