宿題2関係の補足

英語のレマ (lemma) リストの入手について

レマ化を行うにはなんらかの辞書(リスト)が必要です。AntConcなどのコンコーダンサで使えるレマリストは、AntConcの公式ページの下のほうにリンクがあります。ファイル(zip形式)への直接リンクはこちら

AntConcでは、Settings – Tool Preferences – Word List からレマリストを読み込むことで、レマ単位での検索ができるようになります。

日本語のデータをAntConcなどで読み込むための下準備

AntConcなどのコンコーダンサでコロケーションを調べるためには、スペースなどで単語が区切られていることが前提となるので、日本語のデータを読み込む場合はそのままではうまくいきません。WinChaのような形態素解析用のツールで下処理をすれば、日本語のデータを単語ごとにスペースで区切ることができます。

なお、日本語では英語と同じ形式のレマリストは流通していないのではないかと思います(レマリストを用いる方法が日本語には向いていないと思います)。比較的簡単に日本語のレマ単位での集計を得るには、形態素解析の結果で得られた基本形をExcelなどで集計するか、またはKH Coderなどの日本語用の高機能な分析ツールを用いるなどの方法があると思います。

コメントシート回答

コメントシートで質問があったことのうち、多くの人の役に立ちそうなことについてここに書いておきます。

レマによる集計と語形による集計との違いについて

基本的には、レマごとの違いに着目するならレマで、活用形ごとのふるまいの違いに着目するなら語形で、ということになります。しかし、例えばレマの違いに着目していても、語形ごとによく調べてみると同じ動詞であっても現在形と過去形では取りやすい目的語が違う、といった発見がある可能性もあります。

古典日本語の形態素解析は可能か?

近代文語UniDicおよび中古和文UniDicが公開されているので、古文の形態素解析も可能です。

コメントシート回答

4/22 のコメントシートにあった質問の一部に回答します(複数の方の質問をひとまとめにしたりしている場合があります。全ての質問にお答えできていませんがご了承を)。

日本人の英語学習者のコーパスはないのか?

あります。教科書の10章で紹介されているNICT JLE Corpus(会話)やJEFLL Corpus(作文)などがあります。

JEFLL Corpus
NICT JLE Corpus

講演などより、より日常会話に近いデータはないか。

無料で使えるものとしては千葉大3人コーパスがおすすめです。名大会話コーパスはここから検索可能なようです。(追記:名大会話コーパスは ここ からダウンロード可能なはずですが5/20現在、メンテナンスのため入れないようです)

年代別、地方別などで分けて検索できないか。

日本語話し言葉コーパスは基本的に標準語話者のデータなので、方言の調査には向きませんが、年齢別の調査は可能です。日本語書き言葉コーパスも、書かれた時期を調べることができます。国会会議録は、国会での発言という資料に限られますが、発言された年のほか、発言者の出身地や年齢も調べることができるので、年代別・地域別の調査に生かすことができます(地方議会の会議録を用いた研究もあるようです)。

「中納言」には古典作品の例は含まれていないのか。

日本語書き言葉コーパス(BCCWJ)、日本語歴史コーパス(CHJ)ともに(利用申請すれば)中納言で検索することができます。前者は現代語のコーパスであり古典は含まれていません。

英語の歴史変化が調べられるようなコーパスは?

ヘルシンキ大学のCorpus Finderなどを参考にするとよいようです。19世紀以降のアメリカ英語ですとCOHAというのが手軽に使えます。

BNCとCOCAの違いは?

BNCはイギリス英語、COCAはアメリカ英語です。前者はさまざまな資料から均衡を意図してデータが取られていますが、後者は(均衡を意図しつつ)基本的にウェブから構築されています。また前者は1990年に1億語からなる完成品として発表されたものですが、後者は現在もデータが追加中であり、規模はBNCよりかなり大きくなっています。

ウェブ上で使えるコーパスの紹介など

4/22 までのスライドをアップしました。紹介したウェブ上のコーパスのうち、フリーで使えるものを試用してみてください。また、利用申請の必要なものや有料のものでも、将来的に継続して使いたいものがある場合は、利用を検討してみてください。

コーパスは有料のものもありますが、個人での購入が難しくても、研究室単位での購入など可能かもしれません。場合によってはすでに図書館などにDVDの所蔵があったりする可能性もあります。

また、授業中には触れませんでしたが、コーパス日本語学ワークショップのウェブサイトからも、最近の研究事例を多く見つけることができます。