- ベストアンサー
javaでこんなアプリ実現できるでしょうか?
・スタンドアロンのWindowsとMacの各PCで利用。 ・CD-ROM(またはDVD-ROM)の内複数PDFファイルに対し、文字列検索を行い、ヒットしたPDFファイル(指定文字列を含むファイル)の一覧表示をする。 javaでこんなアプリはできないでしょうか? または、なにか条件をつけたら上記仕様を満たすことができるといったご意見でもよいです。 どうかよろしくお願いいたします。
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
PDFファイルのテキストを取り出す方法は公開されています。 [4000]PDF ファイルのテキストコンテンツの取得について フリーウエアもいろいろあります。 検索アプリですが、 すべてのpdfのテキストを抽出 キーワードのインデックスを作成 検索ソフトはそのインデックスを検索する という仕様がよろしいかと。 自作せずに業者に依頼する手もあります。 http://ascii24.com/news/i/serv/article/2000/06/08/609428-000.html?geta
その他の回答 (1)
- lawson
- ベストアンサー率44% (29/65)
プログラムのつくり自体は、 そんなに難しくなさそうです。 ただ、ACROBATリーダー上で表示されている 文字がPDFファイルのバイナリーの中に 存在しなければどうしようもありません。 PDFファイルを開いてみましたがそのようにはなって おりません。当然ですね。 なので、無理だと思います。 プログラムの難易度的には 簡単ですが、PDFファイルのデータのフォーマットや 書式がまったく不明なので、 プログラマに依頼しても、 「できません。」 といわれるか、もしくは、 「データのフォーマットについての詳細な情報を 耳そろえて、だして、でなおしてこい!!」 といわれてしまうだけです。 無理だと思いますが、アドビシステムにお願いして もらうしかありません。 また、そもそも、PDFのバイナリになった時点で イメージ化されて、文字情報そのものが なくなってしまっている場合は どうしようもありません。たぶん、そうでしょう。 その際は、あきらめて下さい。 ただ、検索対象がファイルの中身ではなく、 ファイル名だけでよいという話であれば とても、簡単だと思います。 あと、情報元はPDFファイルしかないのでしょうか? PDFファイルの作成の元なったデータはなんでしょうか? 文字列検索系の処理であれば、 特定のベンダーのバイナリになる前の 情報から検索して、対応するPDFファイルに 紐付けるほうが現実的だと思います。 以上
お礼
こんにちは。おっしゃるように質問する場合はもっと材料を用意しなければいけませんね。 ありがとうございました。 #一度お礼の投稿をしたのですがなぜか反映されていません でした・・・
お礼
こんにちは。 テキスト取り出しはアドビサイトでようやく見つけました。 大量のPDFから順にテキストを取り出しCSVファイルなどに取り出すような方法があったらよいかもしれませんが、それは現実的ではないかもしれませんね。 ありがとうございました。