【研究会報告】言語資源活用ワークショップ
先日(9月4日〜6日)まで、立川の国立国語研究所で開催されていたワークショップ&シンポジウムに参加してきました。
いままでは、コーパスの研究はほとんどしたことがなかったのですが、本学に着任して以降、コーパスを使った研究に興味が出てきています。
例えば、医療用語の分析などにBCCWJ(現代日本語書き言葉均衡コーパス)のデータを使っています*1。 にわか勉強で、形態素解析器MeCabの使い方やその辞書であるIPAやUniDicなどについて、学び、これまたにわか勉強の統計的な手法を使って分析したものです。それまでは、試しにMeCabをいじった程度の知識しかなく、また、Rも存在をしってはいたものの、使ったことはなかったのですが、多少できるようになりました。 livreparaviver.hateblo.jp そんな背景もあり、勉強もかねて、今回、国立国語研究所に3日間通うことになったわけです。
ワークショップ
最初の2日間は、ポスター発表と口頭発表形式で様々なワークショップが開催されていました。 私は、ポスター発表のみに参加したのですが、コーパスに基づく研究の多様性に気付かされました。 情報工学系の研究、特定分野の語彙研究、スペイン語文法の研究等、大変おもしろく、大規模データの利点を存分に発揮した研究も多かったように思います。 これまで、コーパスや統計的手法を用いた研究はほとんどやったことがなかったので、まだまだ勉強不足だなあと痛感させられましたが・・・。その中で、特に面白かったものをメモがてら紹介します。*2
大学院の研究室の後輩が発表していたポスターです。日常会話コーパスという、できるだけ自然な日常会話を収録したコーパス構築の試みの中で出てきたタグ付けの難しさについての発表でした。ただでさえ分析が大変な会話データをコーパス化するという試みは本当に大変なことなんだなと思いました。日常会話コーパスが完成したら自らの研究にも活用していきたいと思います。
- 今村桜子「学校お便り文書の高頻出語彙の縦断的研究- 4 年生から 6 年生までの名詞・サ変名詞・動詞の分析」
移民の受け入が進みつつある日本(あくまで建前は、「移民ではない」そうですが・・・。*3)において非常に意義のある研究だと思います。本格的に移民の受け入れが進めば、保護者の母語の多様性がましてくると予想されます。多言語対応だけでは予算も、学校現場のリソースも足りないという状況が考えられ、このような基礎研究、また、それに基づく支援体制づくりがいままで以上に求められてくるように思いました。
- 宮嵜由美「LINE データベースの設計と属性付与の現状について」
以前より、テキストメッセージングアプリでのコミュニケーションについては興味がありました。しかし、会話などとは異なり、自分と自分の知り合い以外の人たちとのコミュニケーションを見聞きする機会はほとんどありません。LINEデータベースができれば、テキストメッセージングアプリでのコミュニケーションの実態を研究することができるようになるため、多様な言語を研究する上では、構築されたら、活用していきたいと思います。
- 岩崎拓也ほか「クラウドソーシング発注文書におけるレジビリティの量的分析」
クラウドソーシング発注文書についての研究です。着眼点が面白いなと思いました。確かに、クラウドソーシングでは、受注者の目に止まらなければならないため、(読みやすさという観点では)様々な工夫がなされてそうな気がします。
*1:研究成果としては、山元ほか (2018) 「医師国家試験コーパスの構築と名詞語彙の分析―対数尤度比に基づく特徴度を指標として―」『日本語/日本語教育研究会第9回大会予稿集』、山元ほか (印刷中)「医師国家試験の名詞語彙の対数尤度比に基づく分析と教材開発の可能性 」『日本語/日本語教育研究』9. などがあります。
*2:アブストラクトは国語研のホームページで見られます。