- ベストアンサー
PDFを全文検索するプログラム
Acrobatの提供するJavascriptオブジェクトやAPIを使用して、PDFを対象とした 全文検索ツールを作りたいのですが、書籍等も少なく、なかなか有効な情報に 出会えません。どなたか実際にそのような開発に携わったことがあれば、 その手法に関する情報をご提供頂けないでしょうか? なお、市販のPDF全文検索ソフトもいろいろあるのですが、ライセンス フリーなものが今回必要となり、自作を検討しております。 用途はPDFをCD-Rに焼き、そのCD-R内にCD-R内全文検索プログラムを 組み込むというものです。 よろしくお願い致します。
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
私は経験も知識も無いものですが、 A.PDFファイルを直接読んで検索する。 B.人間が操作して、下記RTFファイルまたはテキストファイルに抽出して、検索する。の2つが考えられると思います。 お手許にPDFファイルのファイルフォーマットは既にあるのでしょうか。 その後Adobe社にこの形式のファイルを読み検索するアプリを作成する(その後貴社でソフトを販売するのですか?それを明確に伝えて)のに認諾や契約や有償が必要なのか確認されましたか。 (1)AcrobatファイルはRTF形式にテキスト部分のみ落とせるとのことです。 http://www.keiyu.com/doc/pdftxt.htm http://search.luky.org/linux-users.8/msg00983.html http://www.pdf-seek.com/jyouhou/index.html http://pc-training.hp.infoseek.co.jp/pdf.html http://www.y-adagio.com/public/standards/tr_pdf/pdfmain.htm (この中に「著作権認諾」のことも載っている。) 相当調べられたふうですが、「PDF」「テキスト」「ファイル形式」「ファイルフォーマット」などでWEB検索してみてください。 (2)この落としたファイルを対象に、自作の検索プログラムを作り、走らせる。 (3)(1)はAcrobatの「操作」ですから、その通り操作でやると オフラインバッチ処理的になり、1ステップ入ってしまいます。 それで良いのでしょうか。もし操作を自動的にするマクロのようなものが あればAと近くなり、良いのでしょうが。 (3)バッチ的になって良いなら、(1)を操作でさせて、RTFファイルを読みこみ、扱う方法を習得すれば、検索プログラムが出来ると思います。 検索は「JavascriptオブジェクトやAPI」にそのものズバリはあるはずは 無いと思います。WINやJAVAやその他で検索エンジンまでAPIになっている例があるのでしょうか。 すなわち言いたいことは、RTFの形式のフォーマット詳細を調べるとかして勉強し、処理言語を決めて扱える事ができるようになることがターゲットでしょう。 (4)あと文章検索について色々なアルゴリズムがあるようですので、それを調べて勉強し、その処理言語で使用できるようになることでしょう。クラスモジュールのようなものが販売されておれば、使えると早いでしょうが。 経験のないものがあれこれいっておりますが、目指し進む方向がちょっと 気になりましたので。得るものがあれば幸甚です。
その他の回答 (1)
- Spur
- ベストアンサー率25% (453/1783)
自分でプログラムを作るということでしょうか? それなら、Adobe社と契約が必要になりますし、契約すればモジュールとマニュアルを供給してもらえますよ。 私の会社はそれで作りました。
お礼
早速のご返信ありがとうございます。 Adobe社との契約が必要なのですか。 やはりAdobe社からの情報無しでは難しいのでしょうか? PDFからテキスト情報を取得するAPIでも分かれば VBやVCあたりでできそうな気もするのですが・・・ ありがとうございます。検討してみます。
お礼
返答が遅れまして、申し訳ございませんでした。 色々と調べて頂き、ご助言頂きまして大変恐縮です。 その後調査を致しましたところ、http://partners.adobe.com/asn/developer/acrosdk/main.html のDevelopment Kitにて、VC用のヘッダーファイルや、Javascript オブジェクトを使用したVBのサンプルコードが公開されていました。 まだ深くは解読していませんが、そこで使用されているオブジェクト &メッソドを使用すれば、テキストベースに変換したりだとかいう ステップは省略できそうです。 ただ、Acrobat Readerのプラグインツールとして開発するのであれば Adobe社の開発キット等を購入する必要があるようです。 また、Adobe社へ問い合わせ致しましたところ、 「PDFのテキスト情報を検索する」 というアプリケーションを開発するにあたっては、特に許諾などは 必要ないということです。 意外とPDFの需要は伸びてきているようなので、そういったPDFを対象とした 開発に関するKnowHow資料も、書籍などでもっと欲しいところですね。 いろいろアドバイス頂き、誠に有難うございました。