- ベストアンサー
OCRソフトとスキャナの相性
OCRソフト ・「読んde!!ココ Ver.12 for Windows 体験版」 ・「e.Typist v.11.0 体験版」 スキャナ ・canoscan Lide40 原稿 ・新聞の投書欄(文字のみ) ・英語の教科書ガイド(和文・英文・写真・イラスト) 上記スキャナで、両ソフト・両原稿を試しました。 しかし、文字のご認識が多く、自分でキーボードで打ち込んだ方が早いという状態でした。スキャナ付属の「e.Typistエントリー」と大差ありませんでした。 これは、スキャナの性能に寄るのでしょうか? スキャナを買い換えれば、文字認識の精度が上がるのでしょうか? また、ソースネクストの「本格読取(1980円)」は、どうでしょうか? ご存じの方、教えてください。
- みんなの回答 (3)
- 専門家の回答
質問者が選んだベストアンサー
読んde!!ココ、e.Typist、双方とも、以前使用した事がありますが、認識精度は…。 読み取る文字の大きさや、書体、レイアウトにも因ります。 原稿用紙程度の文字サイズで一般的な書体でプリントアウトされた書類なら結構使えました。新聞の読み込みは辛いかも知れませんがね。 >これは、スキャナの性能に寄るのでしょうか? >スキャナを買い換えれば、文字認識の精度が上がるのでしょうか? 最近のスキャナであれば、特に問題ないと思う。ソフトに因るのでは? >文字のご認識が多く、 OCR ソフトが必要とする解像度でスキャンしてますか? 学習機能が有るソフトの場合は、使い続けるほど精度が上がる筈ですが? 自社ソフトとの比較だから信憑性は? データが本当なら良さそう。でも価格が…。 SmartOCR 1.0 性能テスト・性能比較 ⇒ http://www.smartread.biz/SmartOCR1.0/Test/index.html 情報が古いのですが、 PDF出力対応のOCRソフト5製品を比較する DOS/V magazine 2004/2/15号より(2004/02/14) ⇒ http://www.sbcr.jp/vwalker/series/testlab/art.asp?newsid=6250
その他の回答 (2)
- hawkwind
- ベストアンサー率34% (160/469)
スキャナの性能と取込解像度の双方でしょうね。 一般の高性能スキャナで400DPI程度を要求しますから、 まあ、これはその倍の800DPI程度でスキャンしたらどうでしょう。
- tetsus_2000
- ベストアンサー率67% (467/696)
「試しました」というのはどういう方法で試したのかわかりませんが、たいていのOCRソフトでは ・原稿が縦書きか横書きか ・原稿が日本文か英文か(あるいは日英混在か) ・原稿がテキストか表か図版か などを自動的に読み取り、それに基づいて文字認識しますが、原稿の種類によっては上記の読み取りがうまくできず、結果として認識率が著しく落ちることがあります。 その場合は手動で上記の設定を行ってみてください。 また、スキャナバンドル版とは異なり、製品版OCRの多くは分野毎の辞書を搭載していて、文字単位で認識した結果をさらに単語単位で解析することで認識を高める仕組みが備わっています。 この分野はOCRソフトが自動的に設定しませんので、ユーザ自身が原稿の内容に応じて設定してやる必要があります。 あとは、#1さんからもご指摘のあった通り、スキャンの解像度があまり低いと認識精度に影響します(300dpi程度は必要でしょうか)し、新聞などで裏側の字が透けていたり背景色(紙の色)が濃いと、うまく認識できないことがあります。 これらについては、ある程度、スキャン時の(スキャナソフトの)設定で救うことができますので、いまいちど、見直してみることをオススメします。 最後に......「文字のご認識が多く」とのことですが、現状のPC用OCRソフトの認識率は(原稿の状態がよく、正しい認識方法を用いても)せいぜい95~99パーセントです。 仮に99パーセントとしても、これはA4判プリントアウト1ページを読み取らせたときに数文字~10文字程度は誤認識があるかも...というレベルです(私見ですが、日英混在原稿の英文認識、カナと記号の誤認識などが課題かと)。 ですので、もし「そんな精度じゃ×」とお考えでしたら、現状のOCRソフトに期待するのは無理があるように思います。
お礼
回答ありがとうございます。 やはり安いスキャナではダマなのですね。 参考になりました。