OCRソフトは通常、スキャナで取り込んだ画像データに対して、(1)レイアウト認識→(2)文字認識→(3)辞書や構文などに基づく自動訂正→(4)ユーザ自身が眼で見て訂正→(5)指定した形式で出力というステップを踏みますが、本製品の特徴は(1)と(5)にあります。
(1)の方は、通常のOCRソフトの場合、表の罫線を文字と誤認識することがあり、それを避けるために、認識作業の前に自動あるいは手動で「この範囲は単なる文字列ではなく、表データだよ」とレイアウトを指示する作業を行いますが、「表OCR for EXCEL」の場合はとくに表を認識する能力に長けている由です。
ただし、とくに「表」を謳っていない他社製品の場合も、最近は表のレイアウト認識能力アップを謳っており、「表OCRforEXCEL」を含めて、何種類かの製品を使ってみた経験からは大きな差は感じられませんでした...ひょっとすると、ひじょうに込み入ったレイアウトの表の場合に差が出るのか知れませんが。
肝心の文字認識の精度については、原稿の内容やきれいさによって大きく変動しますし、そもそも、用途によって期待される精度も大きく異なっていますので、一般論としては何とも言いにくいのですが、この製品の精度については個人的にはイマイチかなと感じました。
と言うのは、最近のOCRは分野別辞書とか、構文解析といった、認識精度をすこしでも高める工夫を施しているのに対して、「表OCRforEXCEL」にはそういった機能が備わっていなかったかと(うろ覚えなので、間違えていたらごめんなさい。ぜひ、ご自身で確認してください)。
Excel形式での出力とか、Excelへのアドインなども、最近のOCRソフトはたいていカバーしていますので、これを理由に「表OCRforEXCEL」を選ぶ必要性はないかと。
最近、新バージョンが発表されたばかりのエー・アイ・ソフトの「読んde!!ココ Ver.9」などをご検討になってはいかがでしょうか。
お礼
大変丁寧なご説明ありがとうございました。 参考になりました。