Livre para Viver

日本語とポルトガル語とその周辺

【メモ】各種国家試験のPDFをテキスト化するときに文字化けを極力防ぐ方法

最近、メモばかりですみません。

各種国家試験のPDFをテキスト化しているのですが、どの方法を用いてもうまく行きません。具体的には、以下のような方法を試してみましたが、それぞれ、問題がありました。

  1. MacOSに付属のAutomatorを使う。/MacOSでプレビューで開きコピペする
    MacOSには、Automatorというのが付属しています。
    これは、各種作業を自動化できるソフトで、PDFをドラッグしてドロップすればテキストが自動的に排出され、さらに文字コードUTF-8にする処理をしてくれる仕組みを作りました。しかし次のような問題が・・・
     濁点が1文字として扱われる。(参考:Mac で PDF からコピーすると濁点/半濁点が一文字として表現される - ablog
     全角の数字が「&」になってしまう。
  2. Acrobat Reader(Mac/Win)で開きコピペする。
    面倒くさいですが、諦めてコピペをしようと思ったのですが、「(」がなぜか数字になってしまうという問題が発生しました。問題文中にも数字が使われている以上置換することができず、いちいち1つずつチェックしなければいけないのは大変なので、諦めました。

    その他にもオンラインでPDFを置換してくれるようなサービスを試してみましたが、上記以上の問題が発生。そこでダメ元で・・・

  3. Google Driveにアップロードし、Google Docsで開く。
    という方法を試してみたところ・・・
    どうやら、「(」が消えてしまいましたが、それ以外には特に問題なさそうです!Google Docsはテキストとしてエクスポートができるようなので、これを試してみます。

というわけで、Google DriveにアップロードしてGoogle Docsで開くという方法でテキスト化することにします。

この方法を見つけるだけで疲れてしまったので、実際の作業はまた今度。