Livre para Viver

日本語とポルトガル語とその周辺

PDFをテキスト化したものの処理に便利な正規表現

備忘録的なメモです。(随時更新)

1. 文字と文字の間に挟まれた半角スペースを除去

検索文字列

([ぁ-んァ-ン一-龥]) ([ぁ-んァ-ン一-龥])

置換文字列

$1$2

2. 文中での改行を除去

検索文字列

([ぁ-んァ-ン一-龥| ])\n[ぁ-んァ-ン一-龥| ]

置換文字列

$1$2

3. カタカナの連鎖のみを抽出

検索文字列

[ァ-ヴ][ァ-ヴー・]*