締切済み

OCRで読み取った英文を正規表現を使って整形したい

2011/04/04 02:45

英文をOCRで読み取ったデータがあります。ワードなどに入れるには、末尾の余分な改行が邪魔で削除したいので、秀丸エディタを使用して整形したいと思っています。何段階かに分けてしないといけないと思いますが、アドバイスをいただければと思います。以下にある程度考えたものを書きますので、ご指摘いただけば幸いです。 1) 全角文字を半角にする右クリックメニューから「ハンカクに変換」 2) スペースやタブのみの行のスペースを削除置換で、^[ \t]+\n　→　\n 3) 末尾の余分なスペースを削除置換で、 $　→　なし　（※ 検索文字列の$の前には半角スペースがある。） 4) 単語の途中で改行されている単語をくっつける（末尾の-を削除し、次の行と繋げる） 5) .や?や! で終っていない行末の改行を削除上記のような流れで大丈夫でしょうか？ 4)は、[a-z]-$ で検索すれば、単語を分割する末尾のハイフンは探してくれますが、それを削除して、次の行と繋げることができず、とりあえずキーマクロで処理しました。具体的には、キーマクロ登録開始、F3で検索、一文字シフトしてハイフンと改行を削除、キーマクロ終了で、登録しておいて、後は連続的にキーマクロを実行しました。 5)は、小文字で始まっている行の先頭を探し、スペースを入れて、バックスペースで前の行とつなぎました。 ^[a-z] それでも行末が変な所があったので、 [^\.\!\?]$ で検索して、個別に直していきました。（タイトル行などで、ピリオドで終わらない場合もあるので。）このような整形の必要性は割とありそうなのですが、なかなかいい情報が見当たりませんでした。アプリケーションも探しましたが、なかなか見つからなかったのと、見つかったものもうまくいきませんでした。何かうまい方法などありましたら、教えてください。

sylpheed9
お礼率0% (0/1)

その他([技術者向] コンピューター)
回答数1
ありがとう数0

みんなの回答 （1）
専門家の回答

みんなの回答

sholmes
ベストアンサー率81% (89/109)

2011/04/28 01:08 回答No.1

秀丸エディタ・OCR共に深く活用した経験が無い為、自分には現状お力添えができません。秀丸エディタの代わりにスクリプト言語を利用してもよければ、次の情報を頂いた上でご助力できるかもしれません。 1, 取り込み直後のテキストからサンプルを10～20行程度 2, 1のテキストから整形された、理想的なテキスト御検討下さい