PDFをテキスト化したものの処理に便利な正規表現
備忘録的なメモです。(随時更新)
1. 文字と文字の間に挟まれた半角スペースを除去
検索文字列
([ぁ-んァ-ン一-龥]) ([ぁ-んァ-ン一-龥])
置換文字列
$1$2
2. 文中での改行を除去
検索文字列
([ぁ-んァ-ン一-龥| ])\n[ぁ-んァ-ン一-龥| ]
置換文字列
$1$2
3. カタカナの連鎖のみを抽出
検索文字列
[ァ-ヴ][ァ-ヴー・]*
備忘録的なメモです。(随時更新)
検索文字列
([ぁ-んァ-ン一-龥]) ([ぁ-んァ-ン一-龥])
置換文字列
$1$2
検索文字列
([ぁ-んァ-ン一-龥| ])\n[ぁ-んァ-ン一-龥| ]
置換文字列
$1$2
検索文字列
[ァ-ヴ][ァ-ヴー・]*