• 締切済み

画像とテキストが混在したPDFファイルをOCR認識させる方法

 1ページの中にテキストと画像が混在するWord文書をAcrobat8proでPDFに変換した文書のテキスト認識についの質問です。  この文書の画像部分をテキスト認識させるために、同ソフトのツールから「OCRを使用してテキスト認識」を実行させると、「画像にテキストデータが含まれているため認識できません」というエラーメッセージがでてしまいます。  スキャナーで取り込んだ画像データであれば、問題なく認識できるのですが、今ある大量のPDFファイルはすべてテキストと画像が混在するWordファイルを同ソフトでPDF変換したものです。そしてこのPDFの画像部分の文字をテキスト認識させたいのですが、このままではうまくいかずに困っています。かといって、すべて画像化するなどという手間はかけたくありません。  できるだけ手をかけずにこのPDFの画像部分をテキスト認識させる方法があれば教えて下さい。  なお、当方のOSはWindowsXPです。  以上よろしくお願いします。

みんなの回答

  • chieffish
  • ベストアンサー率44% (1149/2554)
回答No.2

純粋なテキスト部分を削除するとか・・・・

makuro786
質問者

お礼

回答ありがとうございました。 ただ、「テキスト部分を削除」は最終手段と思っています。現在沢山あるPDFのレイアウトを崩さずに、そのままの状態で、画像部分のテキスト認識がができないかと思っています。回答のようにして出来るとは思いますが、加工にかなりの工数がかかり現実的ではないと思います。

  • mitarashi
  • ベストアンサー率59% (574/965)
回答No.1

スキャナーの付録をアップグレードした、e.Typist v11というOCRソフトを所有しておりますが、これはテキスト混じりのpdfファイルであってもテキスト抽出してくれず、すべてグラフィックとして文字認識しますので、ご要求の事ができます。但し、Adobeに遠慮してか、OCR時の解像度は低めで行います(^^;)。下記は、貴方の質問を画面キャプチャーした画像と、テキストをワードに貼り付け、pdf出力後、OCRの実験を行った結果です。実際にはスペースがそこかしこに入りますが、削除してあります。 ●画面キャプチャー部分 「べ一ジの中にテキストと画像が混在する賄rd文書をAomkmt8pmでPDFに変換した文書のテキスト認識についの質問です。この文書の画像部分をテキスト認識させるために、同ソフトのツールからrQCRを使用してテキスト認識」を実行させると、「画像にテキストデータが含まれているため認識できません」というエラーメッセージがでてしまいます。スキャナーで取り込んだ画像データであれば、問題なく認識できるのですが、今ある大量のPDFファイルはすべてテキストと画像が混在するいbdファイルを同ソフトでPDF変換したものです。そしてこのPDFの画像部分の文字をテキスト認識させたいのですが、このままではうまくいかずに困っています。かといって、すべて画像化するなどという手間はかけたくありません。 ●テキストで貼り付けた部分 1ページの中にテキストと画像が混在するWord文書をAcrobat8proでPDFに変換した文書のテキスト認識についの質問です。この文書の画像部分をテキスト認識させるために、同ソフトのツールから「OCRを使用してテキスト認識」 を実行させると、「画像にテキストデータが含まれているため認識できません」というエラーメッセージがでてしまいます。 スキャナーで取り込んだ画像データであれば、問題なく認識できるのですが、今ある大量のPDFファイルはすべてテキストと画像が混在するWordファイルを同ソフトでPDF変換したものです。そしてこのPDFの画像部分の文字をテキスト認識させたいのですが、このままではうまくいかずに困っています。かといって、すべて画像化するなどという手間はかけたくありません。 以上、ご参考まで。 まともに買うと高価ですが...

makuro786
質問者

お礼

 回答ありがとうございました。  OCRソフトは純粋に画像のみかとあきらめかけていましたが、このようなソフトがあることに驚くとともに、実験までしていただいて、大変感謝しています。  結果を見ると画像キャプチャーの認識では誤認識があるものの、テキスト貼り付け部分は問題はないようです。このレベルなら、多分「検索」でも大きな問題は生じないのではと思います。  さっそくe.Typist v11をWebで調べてみましたが、すでにv11はなく、v12になっているようです。 体験版が無料でダウンロードできるので、明日にでも試してみようかと思います。 ただ正式版は確かに「高価」ですね・・・・。

関連するQ&A