- 締切済み
完全認識率のスキャナソフト、OCRソフトは?
ないのでしょうか?? 「e.Typist」と「読んで!ココ」を試用しましたが、テキストの100%の認識率ではありませんでした。 特に雑誌などの独特の字体など不完全です。現状はどのソフトもこうなのでしょうか? 誤認識されたものは、PDFファイルにも、そのまま反映されてしまうのでしょうか? また、完璧とまではいかなくても、完璧に近い、これは満足!というスキャナーやOCRのソフトがあればご紹介ください。
- みんなの回答 (5)
- 専門家の回答
みんなの回答
- kazu333
- ベストアンサー率28% (54/187)
OCRで100%の認識は不可能です。 あくまでもすべての文字を入力するよりは楽になる補助的なツールです。 仕事柄、随分OCRを使っていますが、そう割り切ると大変便利なツールです。 それと、ソフトの価格も影響します。 お試しになったOCRソフトは個人用の低価格のものですが、業務用のソフトになると、随分良くなります・・・100%にはなりませんが。 そのクラスになると数十万円以上の価格です。 OCRについて詳しく書いてあるサイトがありますのでご覧ください。
- myeyesonly
- ベストアンサー率36% (3818/10368)
こんにちは。お尋ねですね。m(__)m >ファイルに出力・・・というのは、プリンターのプロパティからの「ファイルに出力」ではありません。 このファイル出力だと、prn ファイルとう、プリンターで印字する専用ファイルになってしまい、OCRでは扱えません。 ですので、参考URLのような専用ソフトを用いるか、画面をコピーする方法(スクリーンキャプチャー)を使います。 参考URLのソフトは、プリンタの一種として動作する物で、(つまりプリンタドライバです)、この架空のプリンタで印刷すると、画像ファイルができるという代物です。 他の用途でも便利なので、一つ持ってるといいですよ。(笑)
>テキストの100%の認識率ではありませんでした。 ないでしょうね。 私も2種類のソフトを購入しえ使って見ましたが、いずれも、自分の腕の悪さもさることながらいまいちでした。 このサイトにあまり質問がないのも気になってはいたのですがOCRのソフトのいいのはないようですね。 私はこのPCからアンインストールしまして現在は使っていません。 打ったほうがきれいにそれに迅速正確に出来上がるからです。
お礼
すごい期待していたので残念です。 もちろん100%完璧にできるとメーカーは謳っていますし、雑誌等の情報でも同じです(これって罪ですよね)。 e.typistや読んで!ココのようなメジャーなソフトでもだめと言うことは他のソフトでも期待できませんね。
- higejii3
- ベストアンサー率27% (159/568)
100%の認識率などありえないでしょうね。 myeyesonlyさんが書かれていることのほかには、ユーザー辞書次第ということになります。 ユーザー辞書の編集次第で誤認識は、かなりの率で減らせます。IMEなどの辞書が使い方次第で賢くも愚かにもなるように、OCRの辞書も使い方次第。 誤認識を減らすには多くの文書を認識させ、誤認識したときは必ずパターンファイルなどの辞書を編集する、この繰り返しで100%とは行かなくともかなりの率で認識してくれるようになります。 OCRは「使ったもん勝ち」なんですよ。(^^)
補足
>ユーザー辞書次第 とは、OCRソフト内で設定するユーザー辞書のことですか? たとえば誤認識した感じなどを手作業で直す時にOCRのソフトについている辞書で直しますが、その設定や一度設定した読みや漢字を何度も使えば、機械のほうで常時使うものだと認識させることができるということでしょうか?
- myeyesonly
- ベストアンサー率36% (3818/10368)
こんにちは。 私の上司にもいるのですが、OCRソフトを過大評価してるようです。 100%に近づけるのは、ソフトがいかによいかではなくて、いかにきれいなスキャン(原稿)を取るかという事です。 例えば、ワードなどで作った文章を十分な文字間隔、行間隔を取り、プリンター出力ではなく、画像ファイルに出力したのなら、幾ど100%近い識字率を出します。 実質的に現在のOCRソフトは、文字を正確に読めるかという部分は幾ど頭打ちで、いかにごみを除去できるかという部分にかかってきています。 その際、ごみかどうかを判断するのは結局の所、手作業にならざるをえず、この手間をどの位かけられるのか、その手間をかけたスキャン結果を点検する手間をまたどの位かけられるのか、という事が最大の問題ですね。 うちの、その問題の上司も、何かというと「OCRでやって」というのですが、その命令は幾ど無視されて、いない間に手で打ってる事が幾どです。 OCRが実際の運用上でそこそこの信頼性を出すのは、おそらく、自動ごみ判断のエンジンが搭載されて、自動で判別できるようになってからでしょう。
補足
こんにちは。 私もOCRは完璧なものだと期待していました…。 なので大量にスクラップしなければならない雑誌の切抜きがすべて片付くと思っていました(泣)。 自分が打ったワードなどの文書ならばそれでも手作業します。でも雑誌などはやはりその字体やレイアウトどおりに認識してほしいのに…。 ええと、再度質問なのですが、「プリンター出力ではなく、画像ファイルに出力」というのはワードでいえば「印刷」→「用紙の種類」のことでしょうか?それとも私のプリンタには他に「一般的な文書」か「写真をきれいに印刷」などの「プリントアドバイザー」がついていますが、ここで雑誌や写真ならば「写真を…」を選択するということでしょうか??
お礼
はぁー…ますます複雑になってきました。 ただでさえまだ使いこなせていません。もちろん購入したスキャナも。 まずはスキャナでいかにキレイに読み込ませるか等の勉強をして、それでOCRに着手してみます。 ありがとうございました。