Livre para Viver

日本語とポルトガル語とその周辺

PDFをテキスト化したものの処理に便利な正規表現

研究

備忘録的なメモです。（随時更新）

1. 文字と文字の間に挟まれた半角スペースを除去

検索文字列

([ぁ-んァ-ン一-龥]) ([ぁ-んァ-ン一-龥])

置換文字列

$1$2

2. 文中での改行を除去

検索文字列

([ぁ-んァ-ン一-龥| ])\n^{[ぁ-んァ-ン一-龥| ]}

置換文字列

$1$2

3. カタカナの連鎖のみを抽出

検索文字列

[ァ-ヴ][ァ-ヴー・]*