• ベストアンサー
※ ChatGPTを利用し、要約された質問です(原文:OCRが不完全な英文PDFを再度OCR認識させたい)

OCRが不完全な英文PDFを再度OCR認識させたい

このQ&Aのポイント
  • 質問文章からセンセーショナルなタイトルを30文字前後で生成すると、「不完全な英文PDFの再OCR認識方法とは?」となります。
  • 質問文章全体の100文字程度の要約文を3つ作成すると、「2000年ごろに作成された英文PDFを再度OCR認識させたいが、簡単にできる方法はあるか?さまざまな方法を試したが満足できず困っている」という内容をまとめた要約文が得られます。
  • SEOを意識したハッシュタグを5つ作成すると、「#英文PDF #OCR再認識 #簡単な方法 #満足できない #困っている」となります。

質問者が選んだベストアンサー

  • ベストアンサー
  • MT765
  • ベストアンサー率57% (2080/3618)
回答No.4

何通りかやり方がありますが、基本的にはOCRができる形式にファイルを変換することになります。 1.PDFプリンターを使って画像として書き出す Acrobat Readerなどで開き、「Microsft Print to PDF」ドライバを使って印刷します。 詳細設定で「画像として印刷」にチェックを入れてください。 これで印刷すればOCR認識させられるラスターPDFになりますのでAdobe Acrobat proでOCR処理してください。 2.PDF変換サイトなどで画像データに変換する AvePDFなどでPNGなどに変換する。 【PDFからPNGへ】 https://avepdf.com/ja/pdf-to-png 変換してDLしたら、Google画像検索を使うとテキストを抽出できます。 Google画像検索を開くと検索窓にカメラのマークがあるのでクリックするとGoogleレンズが開きます。 あとは認識させたいファイルをアップロードすれば認識されてテキストをコピーできます。 【Google画像検索】 https://images.google.co.jp/imghp?hl=ja&gws_rd=ssl ただ、どちらの場合もご希望されるような認識結果(英単語を英単語として認識させたい)になるかはわかりませんのでご参考程度に。

piyo-maru7
質問者

お礼

返信が遅れて申し訳ありません。 1のやり方はとてもよさそうです。会社のPCで試してみます。一度PDFとして印刷・保存しなおすというのは盲点でした。 2に近いやり方をもうすでに試していました。これで妥協しようかな、と思っていたためにご回答に気づきませんでした。PDFをJPG化してくれるWebサイトを使ってやっていました。 ありがとうございました。

その他の回答 (3)

  • shinotel
  • ベストアンサー率51% (940/1815)
回答No.3

個人的にはこんなソフトを利用しています。 出所に好き嫌いがあるかもしれませんが、読み取り後の校正はOCRソフトでも同じなので、なんとか役立てています。 <瞬間テキスト2> https://www.sourcenext.com/product/pc/use/pc_use_003345/?gpc=0000014365

piyo-maru7
質問者

お礼

こういうソフトがあるのですね。とても便利そうです。ページ全部をOCRする必要がないので用途としてはぴったりです。ただ、一台のPCにしかインストールできないため躊躇しています。2台に入れるとなると4000円ですから。 今回は英文が対象なので、フリーソフトで使えそうなものがないか探します。Windows10のOCR機能をAHKで簡単に呼び出すというのがありました。 ありがとうございました。

回答No.2

Googleドキュメントで編集できる形式になっていればOCRされていると思いますよ。僕の手元ではできていますが、もともと間違って認識されていた単語などは、そのままでした。

回答No.1

GoogleドライブにPDFファイルをアップロードして、Googleドキュメントで開くことでOCRできるそうです。 https://support.google.com/drive/answer/176692

piyo-maru7
質問者

お礼

回答ありがとうございます。 PDFをそのままアップロードしても、再度OCR処理してはくれませんでした。

関連するQ&A