- ベストアンサー
小文字の「っ」について
蔵書の整理のため 蔵書を裁断しOCR認識させています。OCRの機能不足で 小文字の「っ」が時々大文字の「つ」になったり その逆になったりします。認識結果を正規表現で修正したいのですが どういうルールが有るのか知りたいです。
- みんなの回答 (5)
- 専門家の回答
質問者が選んだベストアンサー
「ルール」?について回答できませんが。 OCRアプリによって「っ」「つ」の大きさ基準が違ったりすると思います。 アプリによって前後の言葉からの推測し決定するものもあったり。 OCRとは?文字を認識する仕組みとメリット、精度向上のポイント https://www.gmosign.com/media/work-style/post-186/ 画像解析、ブロック解析、文字認識、AI・辞書による文字訂正、データのテキスト化 と複雑な工程がありますね。 OCRの認識率は高くなってきたとは言え、誤認識は普通にあり得ます。 誤認識されやすい文字リスト http://www.planaria.org/prr/ver1/charlist.html WOCRとかありますね。 OCRの認識精度を向上させるポイント 高解像度でスキャンする 薄い紙のスキャン時は裏紙をあてる 画像データであればノイズは消しておく
その他の回答 (4)
- DESTROY11
- ベストアンサー率23% (804/3490)
ワタシは誤認識を片っ端から保存して、それらを置換するマクロを組んでいます。 それ以上に正確で効率のいい方法が見つかりませんでしたので。
- GENESIS
- ベストアンサー率42% (1198/2797)
OCRによる文字認識力は、原稿の状態とOCRソフトの認識率や機能によります。また認識方法にも認識率の差は出ます。 例えばとにかく認識できれば良いという場合のソフトや、学習機能が付加していて誤認識を学習していくようなソフトでは、当然価格も差が出てきます。ただ一概には言えませんが、より正確な認識ができるものはそれなりの価格が求められます。それでも認識率は100%完全ではないので当然誤認識は発生します。つがっ、っがつという認識はあくまでも認識率の問題でありルール化があるわけではありません。なのでルール化をどうにかして…という事は無理でしょう。 先にも述べましたが認識率は100%ではありません。なので認識結果を確認して誤認識の文字は自力で修正して行くか、単語や前後の文章等を考慮して自動修正するプログラムやマクロを組んで実行するしかないのではと思います。
- neKo_quatre
- ベストアンサー率44% (735/1636)
> 認識結果を正規表現で修正したいのですが 正規表現で「この場合はこう」って書けるほど単純なルールじゃないと思うけど。 辞書とか参照しながら、校正するような作業になるのでは。 「つ/っ」だけの問題でないでしょうから、自動校正するツールにかけてみては。 Wordだと「校閲」のリボンの「スペルチェック」を実施とか。 というか、ある程度のOCRソフトなら、その辺も考慮して文字認識してくれそうだけど。
- sknbsknb2
- ベストアンサー率38% (1158/3030)
ルールも何も、どの「っ」を「つ」に変更して、どの「つ」を「っ」に変更するなんて自動でできるわけがないので、とりあえず間違って認識している単語を見つけたら片っ端から記録しておいて、マクロとか使って一括変換するとかしかないのでは。