コメントシート回答

4/22 のコメントシートにあった質問の一部に回答します(複数の方の質問をひとまとめにしたりしている場合があります。全ての質問にお答えできていませんがご了承を)。

日本人の英語学習者のコーパスはないのか?

あります。教科書の10章で紹介されているNICT JLE Corpus(会話)やJEFLL Corpus(作文)などがあります。

JEFLL Corpus
NICT JLE Corpus

講演などより、より日常会話に近いデータはないか。

無料で使えるものとしては千葉大3人コーパスがおすすめです。名大会話コーパスはここから検索可能なようです。(追記:名大会話コーパスは ここ からダウンロード可能なはずですが5/20現在、メンテナンスのため入れないようです)

年代別、地方別などで分けて検索できないか。

日本語話し言葉コーパスは基本的に標準語話者のデータなので、方言の調査には向きませんが、年齢別の調査は可能です。日本語書き言葉コーパスも、書かれた時期を調べることができます。国会会議録は、国会での発言という資料に限られますが、発言された年のほか、発言者の出身地や年齢も調べることができるので、年代別・地域別の調査に生かすことができます(地方議会の会議録を用いた研究もあるようです)。

「中納言」には古典作品の例は含まれていないのか。

日本語書き言葉コーパス(BCCWJ)、日本語歴史コーパス(CHJ)ともに(利用申請すれば)中納言で検索することができます。前者は現代語のコーパスであり古典は含まれていません。

英語の歴史変化が調べられるようなコーパスは?

ヘルシンキ大学のCorpus Finderなどを参考にするとよいようです。19世紀以降のアメリカ英語ですとCOHAというのが手軽に使えます。

BNCとCOCAの違いは?

BNCはイギリス英語、COCAはアメリカ英語です。前者はさまざまな資料から均衡を意図してデータが取られていますが、後者は(均衡を意図しつつ)基本的にウェブから構築されています。また前者は1990年に1億語からなる完成品として発表されたものですが、後者は現在もデータが追加中であり、規模はBNCよりかなり大きくなっています。