（必要に駆られて）Rの勉強を始めました

いままで統計といえば、学部の時に勉強した統計学の授業程度の知識しかありませんでした。標準偏差、正規分布、t検定程度しか勉強しなかったように記憶しています。

院生の時には質的研究が中心だったため、統計を用いる研究は、他の院生の研究を聞いたり、論文で見たりする程度でした。

それがひょんなことから、医療系の大学に就職し、医師国家試験合格を目指す留学生の日本語教育に従事することになり、語彙教材などの作成に、医師国家試験の分析をすることが急務になりました。

専門用語を抽出するために用いられている統計的手法について述べられている論文を読みあさり、対数尤度比を用いて医師国家試験に特徴的な語を抽出する必要性が出てきました。

数回しか使ったことのないMeCabで形態素解析し、大規模均衡コーパスであるBCCWJと対照させ、形態素解析情報をSPSSで読み込み頻度情報を出し、エクセルで対数尤度比を出すという煩雑な手順で行って、一応、語彙リストはできました。*1

しかし、SPSSを用いた場合、処理に大きな時間がかかり、また、品詞や読みが異なる同表記の語が同じ語としてカウントされるなど、頻度の集計をする場合には、大きな障害となります。（今回はたまたま問題が起きなかっただけだと考えるのが無難ですし、手作業の修正が多くなればなるほどミスも多くなると考えられます。）

また、SPSSは、記述統計が一発でできるのは便利ですが、SPSSは高価なソフトであり、所属が変われば使えなくなります。*2

その他、エクセルで対数尤度比を求める場合、煩雑な計算式を入力しなければならず、これもミスを生み出しやすくなります。

これらの問題を解決するためには、Rの使用が必然となってきたのです。

語彙調査をする際のRのメリットは以下に集約できるように思います。