Livre para Viver

日本語とポルトガル語とその周辺

(必要に駆られて)Rの勉強を始めました

いままで統計といえば、学部の時に勉強した統計学の授業程度の知識しかありませんでした。標準偏差正規分布、t検定程度しか勉強しなかったように記憶しています。

院生の時には質的研究が中心だったため、統計を用いる研究は、他の院生の研究を聞いたり、論文で見たりする程度でした。

それがひょんなことから、医療系の大学に就職し、医師国家試験合格を目指す留学生の日本語教育に従事することになり、語彙教材などの作成に、医師国家試験の分析をすることが急務になりました。

専門用語を抽出するために用いられている統計的手法について述べられている論文を読みあさり、対数尤度比を用いて医師国家試験に特徴的な語を抽出する必要性が出てきました。

数回しか使ったことのないMeCab形態素解析し、大規模均衡コーパスであるBCCWJと対照させ、形態素解析情報をSPSSで読み込み頻度情報を出し、エクセルで対数尤度比を出すという煩雑な手順で行って、一応、語彙リストはできました。*1

しかし、SPSSを用いた場合、処理に大きな時間がかかり、また、品詞や読みが異なる同表記の語が同じ語としてカウントされるなど、頻度の集計をする場合には、大きな障害となります。(今回はたまたま問題が起きなかっただけだと考えるのが無難ですし、手作業の修正が多くなればなるほどミスも多くなると考えられます。)

また、SPSSは、記述統計が一発でできるのは便利ですが、SPSSは高価なソフトであり、所属が変われば使えなくなります。*2

その他、エクセルで対数尤度比を求める場合、煩雑な計算式を入力しなければならず、これもミスを生み出しやすくなります。

これらの問題を解決するためには、Rの使用が必然となってきたのです。

語彙調査をする際のRのメリットは以下に集約できるように思います。

  1. SPSSを用いずに頻度情報を出したり、データを整理したり、統計的な処理ができる。
  2. エクセルでは表示しきれない行数の表データの編集が容易である。
  3. パッケージ(RMeCab)を導入することで、形態素解析から統計処理を一貫して行うことができ、ミスが少なくてすむ。
  4. 無料である。

というところでしょうか。私自身もまだ勉強し始めたところで、こねくりまわして、使いこなせるようになりたいと思っています。

Rの使用を考える前に、言語統計やコーパス言語学に関する本も何冊か読んでみたのですが、私たちの目指していることはなかなか実現できそうになく、ついにRに手を出すことになりました。

Rの勉強には、以下の本を読んでいます。

Rによるテキストマイニング入門

便利なパッケージがいろいろと紹介されています。またRMeCabについても詳しく使い方が出ていて、実例とともにスクリプトが示されているので、分かりやすいです。

これらの本を参考にしながら少しずつ慣れていきたいなと思います。

Computers

*1:この成果は、2017年10月に日本語/日本語教育研究会で発表したほか、山元ほか (印刷中) 「医師国家試験の名詞語彙の対数尤度比に基づく分析と教材開発の可能性」『日本語/日本語教育研究』第9号, ココ出版. にまとめています。

*2:本学は医療系だけあって、学内LANに接続すればSPSSが使えます。