画像とテキストが混在したPDFファイルをOCR認識させる方法
1ページの中にテキストと画像が混在するWord文書をAcrobat8proでPDFに変換した文書のテキスト認識についの質問です。
この文書の画像部分をテキスト認識させるために、同ソフトのツールから「OCRを使用してテキスト認識」を実行させると、「画像にテキストデータが含まれているため認識できません」というエラーメッセージがでてしまいます。
スキャナーで取り込んだ画像データであれば、問題なく認識できるのですが、今ある大量のPDFファイルはすべてテキストと画像が混在するWordファイルを同ソフトでPDF変換したものです。そしてこのPDFの画像部分の文字をテキスト認識させたいのですが、このままではうまくいかずに困っています。かといって、すべて画像化するなどという手間はかけたくありません。
できるだけ手をかけずにこのPDFの画像部分をテキスト認識させる方法があれば教えて下さい。
なお、当方のOSはWindowsXPです。
以上よろしくお願いします。
お礼
みなさんありがとうございました。 ソフトを試してみたのですが、たまに違う数字に読んだりします。 精度の高いソフトを探して見ます。