• ベストアンサー

大量OCR

下記のように大量文書のOCRファイリングを考えています。 (1)定型文書10種類 各数万枚から十数万枚 合計80万枚程度 (2)文字種類 すべて活字 手書きなし (3)OCR方法 文書中の特定場所のみ数字10桁+英字数桁 (4)文書の種類 伝票、帳票 サイズA4 曲がった紙はほとんどなし (5)誤認識の訂正方法 パートの派遣を利用して1枚あたり平均3秒程度の作業時間以下にしたい (6)文書の検索方法 (3)の検索結果を検索キーにしたいと思います。 AdobeReaderの検索機能を使用 検索するのは社員の不特定者 (7)保存形式 PDF 透明テキスト付き (8)スキヤナー 70枚/分 400DPI これから購入予定 (9)OCR ソフト メディアドライブWinreaderProV10 これから購入予定 (10)OCR認識に使用するパソコン 2台 一台をOCR認識用 もう一台を認識結果の訂正用にして交互に使う これから購入 何か問題点がありましたら教えていただけませんでしょうか 特に気になるのが下記の点です。 (5)誤認識の訂正方法 (6)(7)文書の検索方法 保存形式 この方法でいいのか ? (9)OCR ソフト はこのソフトでいいのか 長くなりましたがよろしくお願いします

質問者が選んだベストアンサー

  • ベストアンサー
  • himajin1
  • ベストアンサー率43% (184/422)
回答No.2

誤認識の訂正で、パートの派遣を利用して1枚あたり平均3秒程度の作業時間以下にするのであれば、透明テキスト付きOCRでは、コピペ作業が発生するので厳しいと思います。 数字10桁+英字数桁 のみのOCRでしたら、その認識結果をファイル名にしてくれるOCRソフトを使用し、1枚=1ファイルにしましょう。 私は、 http://www.hypergear.com/pdf/pscanserv_plus_product.htm の、PscanServ を使用していますが、その手の設定が細かくできます。 英語専用モードも設定できます。 文書中の特定場所のみOCRさせるのも指定できます。 認識結果が、ファイル名になっていれば、 AdobeReaderの検索機能を使用しなくても、OSに依存する方法で探せるので使う人が楽になれると思います。

BABA4912
質問者

お礼

このソフトはまったく知りませんでした。 ご紹介ありがとうございます。 よく研究してみます。

その他の回答 (1)

  • saiph
  • ベストアンサー率50% (16/32)
回答No.1

>(2)文字種類 すべて活字 手書きなし レーザープリンタで印刷されたものですか? インクジェットなら不可能と言っておきます。 >(3)OCR方法 文書中の特定場所のみ数字10桁+英字数桁 数値にカンマや小数点は含まれていますか? カンマと小数点の認識を今の技術では完全には制御できません。 セルを強制的に数値として認識できますが、英字も含まれていると その制御ができません。すると400dpiではl(エル)と1(いち)や O(オー)と0(ゼロ)を誤認識します。多分600dpiでも完全とは 言えないでしょう。 また、紙には見当たらないゴミを小数点として認識した事もあります。 私も似たような事をしようとして、結果、あきらめることにしましたが パートの派遣さんが目で見て訂正するならなんとかなるかもしれないです。

BABA4912
質問者

お礼

ありがとうございます。 印刷はレーザープリンタです。 誤認識の問題 ある程度は仕方がないのでOCR結果をデータとして使うというより 検索キーとして使うことを考えています。 スキャンは600DPIでも可能です。 400あれば600でもあまり変わらないのではと思い400としてみましたテストして600DPIの方が良いようであれば600にします。 ありがとうございました。

関連するQ&A