Livre para Viver

日本語とポルトガル語とその周辺

【メモ】MacでMeCabをUniDicで使う方法

現任校に着任してから、医師国家試験の分析を進めています。数ヶ月内に学会発表などができたらいいなと考えています。他の日本語教員と共同で進めているため、一人で進めるよりも格段に早く進みます。年度内に、何らかの形で、公表できればいいなと思っています。

その際に、手持ちのMac Book Pro (Mid 2010, Mac OS X 10.12.5) でMeCabをインストールし、辞書としてUniDicを入れたのでその方法を紹介します。

私自身は、GUIベースでできること以外には疎く、かなり苦戦しました。同様の背景の方がMeCabでUniDicを用いて形態素解析しようと思った際に、参考になればと思いこのエントリーを書きました。

本学で各教員に提供されているコンピューターはWindows 10で、文字コードの問題かうまく形態素分析の処理ができなかったため、使い慣れた手持ちのMacに入れることにしたのですが、Macにインストール・使用する際にも苦戦しました。自分のための覚え書きとしてメモしておきます。

目次 

1. MeCabのインストール

※ 「x.x」 はMeCabのバージョンを示します。

① MeCabのウェブサイトで、Sourceファイルをダウンロードします。(デスクトップなどで構いません)

② ターミナル(terminal.app)を起動します。※Spotlightで探すのが楽です。

③ 表示された画面に以下の様に入力します。(MeCabウェブサイト参照)

tar zxfv [ダウンロードしたファイルのパス]

まずtar zxfv と入力し、ダウンロードした、mecab-x.x.tar.gz  をドラッグアンドドロップすると自動的に入力されます。([ ]は分かりやすくするために示したので、入力しないでください。)

④  暫く、解凍が行われます。終わったら入力できるようになるので、以下のように入力します。これでMeCabが解凍されたディレクトリに移ります。

cd mecab-x.x 

⑤ その後以下のように入力します。

./configure

⑥ 一連の処理が終わったら以下のように入力します。

make

⑦ 一連の処理が終わったら、以下のように入力します。

make check

⑧一連の処理が終わったら、以下のように入力します。

su

パスワードを求められるので、管理者用パスワードを入力します。

⑨次に以下のように入力します。

make install

これでMeCabがインストールできました。

2. UniDicのインストール

MeCabはインストールするだけでは、形態素解析をしてくれないので、形態素解析辞書もインストールします。MeCabは、標準ではIPA辞書を使うことになっているようです。

ここでは、UniDicのインストールの方法を紹介します。

UniDicのダウンロードサイトからUniDicのソースファイルをダウンロードします。「ダウンロードファイル一覧」をクリックし、ソースファイル(unidic-mecab-2.1.2_src.zip)をダウンロードし、解凍します。

② ターミナルを開き以下のように入力します。これでディレクトリに移動します。

cd [ダウンロードしたzipファイルを解凍してできたディレクトリ]

③ 次に以下のように入力します。処理が始まります。

make && ./configure

④ 次に以下のように入力します。

su

⑤ 次に以下のように入力します。

make install

これでUniDicもインストールできました。

3. MeCab+UniDicの基本的な使い方

MeCabでは、標準では、IPA辞書を使う設定になっているようで、UniDicを使う場合は辞書を指定する必要があります。以下のように入力するとmecabが使えます。

mecab -d /usr/local/lib/mecab/dic/unidic

IPA辞書をインストールしてありIPA辞書を使いたい場合には以下の様に入力します。

mecab

続いて、何でも良いので入力してみましょう。例えば、

「日本からブラジルへの直行便はない。そのため、ヨーロッパ、中東または北アメリカなどを経由して行かなければならない。」

すると以下のように形態素解析が行われます。

日本 ニッポン ニッポン 日本 名詞-固有名詞-地名-国

から カラ カラ から 助詞-格助詞

ブラジル ブラジル ブラジル ブラジル-Brazil 名詞-固有名詞-地名-国

へ エ ヘ へ 助詞-格助詞

の ノ ノ の 助詞-格助詞

直行 チョッコー チョッコウ 直行 名詞-普通名詞-サ変可能

便 ビン ビン 便 名詞-普通名詞-一般

は ワ ハ は 助詞-係助詞

ない ナイ ナイ 無い 形容詞-非自立可能 形容詞 終止形-一般

。 。 補助記号-句点

その ソノ ソノ 其の 連体詞

ため タメ タメ 為 名詞-普通名詞-副詞可能

、 、 補助記号-読点

ヨーロッパ ヨーロッパ ヨーロッパ ヨーロッパ-Europa 名詞-固有名詞-地名-一般

、 、 補助記号-読点

中東 チュートー チュウトウ チュウトウ 名詞-固有名詞-地名-一般

また マタ マタ 又 接続詞

は ワ ハ は 助詞-係助詞

北 キタ キタ 北 名詞-普通名詞-一般

アメリカ アメリカ アメリカ アメリカ-America 名詞-固有名詞-地名-国

など ナド ナド など 助詞-副助詞

を オ ヲ を 助詞-格助詞

経由 ケーユ ケイユ 経由 名詞-普通名詞-サ変可能

し シ スル 為る 動詞-非自立可能 サ行変格 連用形-一般

て テ テ て 助詞-接続助詞

行か イカ イク 行く 動詞-非自立可能 五段-カ行 未然形-一般

なけれ ナケレ ナイ ない 助動詞 助動詞-ナイ 仮定形-一般

ば バ バ ば 助詞-接続助詞

なら ナラ ナル 成る 動詞-非自立可能 五段-ラ行 未然形-一般

ない ナイ ナイ ない 助動詞 助動詞-ナイ 終止形-一般

。 。 補助記号-句点

EOS

これが基本的な使い方です。

4. テキストファイルを形態素解析し別ファイルに出力

これが、一番戸惑いました。まず、形態素解析する元テキストの文字コードUTF-8にしておく必要があります。 その上で以下のように入力します。

mecab -d /usr/local/lib/mecab/dic/unidic [元テキストのファイルのパス] -o [出力先ファイルのパス]

前述したように、パスはファイルをドラッグアンドドロップしてください。出力先は、たとえば、all.txtだったら、all_m.txtなどにすると良いと思います。そうすると、新しく指定したファイルが作成されます。

ここで出来るファイルはタブ区切りなので、エクセル等の表計算ソフトが使えます。

 

MeCabおよびUniDicについては、公式サイトやマニュアルの他に以下のサイトや書籍を参考にしました。

MeCabのコマンドライン引数一覧とその実行例 | mwSoft

萩野綱夫・田能村忠温  編 (2011) 『コーパスの作成と活用 (講座ITと日本語研究)明治書院

李在鎬・石川慎一郎・砂川有里子 (2012)『日本語教育のためのコーパス調査入門くろしお出版.