• ベストアンサー

PDFの本文を検索できるようにするには?

本や新聞の切り抜きなどをスキャナで読み取ってグーグルデスクトップで本文中のキーワードを検索できるようにするにはどうしたらよいのでしょうか?PDF化したページが表示されればと思い、いきなりPDFスキャナ2 で新聞記事を透明テキスト付PDFにしてみましたが、本文中のキーワードで検索しても検索に引っかかりませんでした。ちなみにスキャナはブラザーA3カラー複合機ジャスティオMFC-6490CNです。

質問者が選んだベストアンサー

  • ベストアンサー
  • ESE_SE
  • ベストアンサー率34% (157/458)
回答No.3

単純にスキャナで取り込んでPDF化しても画像として認識するので、文字列検索の対象にはなりません。 OCR(Optical Code Reader)と呼ばれるツールを使用することで、画像の中に含まれる文字をテキスト化することができます。 フリーでは「クセロReader ZERO」というのがあるようで以前使ってみたのですが・・・ 使い方がいまいち分からず放置しています。 OCRは有償がほとんどだと思います。 また読み取り精度が悪いと、ベタなネタとして 「日本」→「H本」 などという誤認識をしてくれる場合もあります。

kopensan
質問者

お礼

ありがとうございました。いろいろなOCRツールをあたってみます。

その他の回答 (3)

回答No.4

クセロReader0 Ver2.0のOCR機能の使い方を説明しているサイトがありました。これでワードへ変換してみたらとおもいます。

  • Us-Timoo
  • ベストアンサー率25% (914/3620)
回答No.2

スキャナで切り抜きや本をスキャンしただけでは『画像』として読み取っただけですので、いくらテキスト検索してもコンピュータ上の文字になっていないのですから引っかかるはずもありません。 切り抜きや本をスキャンし、コンピュータ上の文字として認識する為のOCRソフトが必要です。

  • ORUKA1951
  • ベストアンサー率45% (5062/11036)
回答No.1

そのままでは無理です。 なぜかは、PDFの仕組みまで説明しないとならないのでここでは説明しませんが、スキャナで読み込んだデータは単なる画像ですから、テキストは含まれていません。  一旦、OCRで文字データに戻して(当然ご認識は修正して)、その後、PDFに印刷しなおさないとダメなのです。

関連するQ&A