• 締切済み

PDFファイルを検索可能型にしたい

PDFファイルを検索可能型にしたい PDFファイルを検索可能型にしたいのです 透明テキスト付加などと言われていますが スキャナーでスキャンして作成したPDFファイルは 要するにテキスト情報が無い”絵”の状態です この状態だと ある文字が含まれるページを探すには1ページずつ開いて目だ探すしかありません しかし透明テキストが付加されているPDFファイルだと アクロバットリーダーなどの 検索機能が使えます 今時のスキャナーはPDFファイル作成時にテキスト情報を付加する機能があり これはこれで問題ないのですが その機能を持たないスキャナーでスキャンして作成したなどのPDFファイルでは 後からテキスト情報を付加してやる必要があります この機能を持ったソフトを探しているのですが なかなか見つかりません ソースネクストのものを購入しましたが あくまでもスキャナーで読み取った時に テキスト情報を付加するものであり既に出来上がっているPDFファイルには 対応しませんでした 無駄金使ってしまいました この要望にこたえられるソフトはあるのでしょうか? Docuworcusも利用していますが これもそのあたりがイマイチです・・。

みんなの回答

回答No.2

私も同じ課題で、最適なソフトを探している最中です。 私自身もまだ結論を出せていないので、以下の回答は参考程度に……。 PDFファイルを読み込めるOCRソフト、を用いるのが良いと思います。 私もまだ結論を出せていませんが、以下の2本に絞り込んだところです。 (甲乙つけがたい……ってことは、どちらでもいい……ってことかも?) ・読取革命 http://panasonic.co.jp/sn/psn/pstc/products/yomikaku/ ・読んde!!ココ http://ai2you.com/ocr/product/koko13/koko13.asp どちらも体験版をダウンロードできます(が試用期間は短いです)ので、実際に試してみてから、製品版を購入するかどうか判断なさるのが良いでしょう。 ……とは言え、ソフトを起動すれば全自動で完璧な結果を出力してくれる、という程、簡単なものではありません。 昔のOCRソフトより格段に認識率が向上していることに驚きましたが、それでも誤認識は避けられません。 最終的には、人間の目で誤認識を探し出し、手作業で一つひとつ修正してゆく根気が必要になります。 (つまり、↑の部分の作業がいかに効率化できるか、がソフトの選択の決め手、だと考えます。) (認識実行の前に、認識範囲とそのプロパティ、を手動で細かく設定してやることで、認識率が大幅に向上します。) (手間を惜しまないことが、結果的に効率化につながります。) あくまで私見ですが、上記2本のソフトを試した感触では、 認識範囲の手動設定の作業は「読んde!!ココ」の方が楽な気がします。 一方「読取革命」の「ハイパーチェッカー」機能は、誤認識の確認、修正作業が効率的で、捨てがたく思います。 使い勝手というのはは主観的なものですし、用途や、読み込む原稿の種類によっても最適の解は変わってくると思います。 まずは体験版をお試しください。 (注、すべての誤認識を完璧に修正するのでなく、「キーワード」になりそうもない語句の誤認識には目をつぶる、……というアプローチもアリと思います。)

  • mitarashi
  • ベストアンサー率59% (574/965)
回答No.1

本家Acrobatでできます。 当方未だにスキャナーの付録のAcrobat 6&7 standardなので、最新の状況は分かりません。 Acrobat 6のヘルプでは「透明テキスト」では検索にヒットしません。文書/Paper Capture/キャプチャで、読み取り済みの文書に対していわゆる「透明テキスト」がつけられます。 白黒2値限定、解像度範囲指定ありと、制約が厳しいですが、Docuworks6.0のOCR機能の方が優秀でした(当時は)。

関連するQ&A