- 締切済み
画像とテキストが混在したPDFファイルをOCR認識させる方法
1ページの中にテキストと画像が混在するWord文書をAcrobat8proでPDFに変換した文書のテキスト認識についの質問です。 この文書の画像部分をテキスト認識させるために、同ソフトのツールから「OCRを使用してテキスト認識」を実行させると、「画像にテキストデータが含まれているため認識できません」というエラーメッセージがでてしまいます。 スキャナーで取り込んだ画像データであれば、問題なく認識できるのですが、今ある大量のPDFファイルはすべてテキストと画像が混在するWordファイルを同ソフトでPDF変換したものです。そしてこのPDFの画像部分の文字をテキスト認識させたいのですが、このままではうまくいかずに困っています。かといって、すべて画像化するなどという手間はかけたくありません。 できるだけ手をかけずにこのPDFの画像部分をテキスト認識させる方法があれば教えて下さい。 なお、当方のOSはWindowsXPです。 以上よろしくお願いします。
- みんなの回答 (2)
- 専門家の回答
みんなの回答
- chieffish
- ベストアンサー率44% (1149/2554)
純粋なテキスト部分を削除するとか・・・・
- mitarashi
- ベストアンサー率59% (574/965)
スキャナーの付録をアップグレードした、e.Typist v11というOCRソフトを所有しておりますが、これはテキスト混じりのpdfファイルであってもテキスト抽出してくれず、すべてグラフィックとして文字認識しますので、ご要求の事ができます。但し、Adobeに遠慮してか、OCR時の解像度は低めで行います(^^;)。下記は、貴方の質問を画面キャプチャーした画像と、テキストをワードに貼り付け、pdf出力後、OCRの実験を行った結果です。実際にはスペースがそこかしこに入りますが、削除してあります。 ●画面キャプチャー部分 「べ一ジの中にテキストと画像が混在する賄rd文書をAomkmt8pmでPDFに変換した文書のテキスト認識についの質問です。この文書の画像部分をテキスト認識させるために、同ソフトのツールからrQCRを使用してテキスト認識」を実行させると、「画像にテキストデータが含まれているため認識できません」というエラーメッセージがでてしまいます。スキャナーで取り込んだ画像データであれば、問題なく認識できるのですが、今ある大量のPDFファイルはすべてテキストと画像が混在するいbdファイルを同ソフトでPDF変換したものです。そしてこのPDFの画像部分の文字をテキスト認識させたいのですが、このままではうまくいかずに困っています。かといって、すべて画像化するなどという手間はかけたくありません。 ●テキストで貼り付けた部分 1ページの中にテキストと画像が混在するWord文書をAcrobat8proでPDFに変換した文書のテキスト認識についの質問です。この文書の画像部分をテキスト認識させるために、同ソフトのツールから「OCRを使用してテキスト認識」 を実行させると、「画像にテキストデータが含まれているため認識できません」というエラーメッセージがでてしまいます。 スキャナーで取り込んだ画像データであれば、問題なく認識できるのですが、今ある大量のPDFファイルはすべてテキストと画像が混在するWordファイルを同ソフトでPDF変換したものです。そしてこのPDFの画像部分の文字をテキスト認識させたいのですが、このままではうまくいかずに困っています。かといって、すべて画像化するなどという手間はかけたくありません。 以上、ご参考まで。 まともに買うと高価ですが...
お礼
回答ありがとうございました。 OCRソフトは純粋に画像のみかとあきらめかけていましたが、このようなソフトがあることに驚くとともに、実験までしていただいて、大変感謝しています。 結果を見ると画像キャプチャーの認識では誤認識があるものの、テキスト貼り付け部分は問題はないようです。このレベルなら、多分「検索」でも大きな問題は生じないのではと思います。 さっそくe.Typist v11をWebで調べてみましたが、すでにv11はなく、v12になっているようです。 体験版が無料でダウンロードできるので、明日にでも試してみようかと思います。 ただ正式版は確かに「高価」ですね・・・・。
お礼
回答ありがとうございました。 ただ、「テキスト部分を削除」は最終手段と思っています。現在沢山あるPDFのレイアウトを崩さずに、そのままの状態で、画像部分のテキスト認識がができないかと思っています。回答のようにして出来るとは思いますが、加工にかなりの工数がかかり現実的ではないと思います。