宿題2関係の補足

英語のレマ (lemma) リストの入手について

レマ化を行うにはなんらかの辞書(リスト)が必要です。AntConcなどのコンコーダンサで使えるレマリストは、AntConcの公式ページの下のほうにリンクがあります。ファイル(zip形式)への直接リンクはこちら

AntConcでは、Settings – Tool Preferences – Word List からレマリストを読み込むことで、レマ単位での検索ができるようになります。

日本語のデータをAntConcなどで読み込むための下準備

AntConcなどのコンコーダンサでコロケーションを調べるためには、スペースなどで単語が区切られていることが前提となるので、日本語のデータを読み込む場合はそのままではうまくいきません。WinChaのような形態素解析用のツールで下処理をすれば、日本語のデータを単語ごとにスペースで区切ることができます。

なお、日本語では英語と同じ形式のレマリストは流通していないのではないかと思います(レマリストを用いる方法が日本語には向いていないと思います)。比較的簡単に日本語のレマ単位での集計を得るには、形態素解析の結果で得られた基本形をExcelなどで集計するか、またはKH Coderなどの日本語用の高機能な分析ツールを用いるなどの方法があると思います。