- ベストアンサー
PDFファイルの文字を取得するプログラム
http://kanpoo.jp/ のサイトで、検索すると、PDFの内容が検索できます。 検索できるということは、PDFの文字を取得できるからだと思うのです。 PDFの文字をデータベースに読み込みプログラムを作りたいです。 とりあえず、PDFの文字を取得するプログラムを作りたいのですが、 作り方が全くわかりません。 どの言語をつかえばいいのか? どの関数、ライブラリ?をつかえばいいのか? 何度ググっても、PDFの文字を取得するサイトがみつけられないので、 偉い人教えてください。
- みんなの回答 (3)
- 専門家の回答
質問者が選んだベストアンサー
- ベストアンサー
標準でそういう機能を持っている言語はあまりないと思います。そのためのライブラリなどを追加して処理することになるでしょう。例えば、Javaの場合、Apache Software Foundationから「PDFBox」というライブラリが出ています。これを利用することで、PDFからテキストを取得できます。 http://pdfbox.apache.org/
その他の回答 (2)
- kabaokaba
- ベストアンサー率51% (724/1416)
わざわざ作らなくたって テキストを引っ張り出すツールを呼び出せばいい xpdfのpdftotextとかが使えるし, namazuのようにpdfも全文検索できるものが どうやってるのかをみればいい (namazuのインデクサはxpdfを使ってたような).
お礼
ご回答ありがとうございました。 pdftotextを使用してみましたが、日本語がうまく変換できませんでした。
- 0909union
- ベストアンサー率39% (325/818)
開発やったことない方なら、たしかにたどれないかもしれませんね。 通常、 SDK OpenSouce オープンソース API のキーワードを、アプリ名とか、ファイル形式について検索します。有償であったり、無償であったりします。 オープンソースと言うのは無償で、プログラムの内容を公開し、使ってもらうプログラムの事をさします。 http://www.google.co.jp/search?hl=ja&q=Acrobat+SDK&lr=lang_ja http://www.google.co.jp/search?hl=ja&q=PDF+%E3%82%AA%E3%83%BC%E3%83%97%E3%83%B3%E3%82%BD%E3%83%BC%E3%82%B9&lr=lang_ja とかですね。その中から、 http://www.infoq.com/jp/news/2007/12/sun-releases-lgpl-pdf-renderer http://journal.mycom.co.jp/articles/2009/02/20/pdfcreator/index.html http://kengo.preston-net.com/archives/002506.shtml http://kb2.adobe.com/jp/cps/255/2558.html これらとは別に、企業同士で提携すると、デベロッパー版が渡されます。それがSDKとか、フレームワークとか、API、SPIとかよばれるものです。 開発環境は、当然それらの物に依存するので、何かとは特定できませんが、昔からあるものなら、CがVBが多いです。 最近のものなら、C++、C#、Javaが多いです。 やる気があるひとなら、また許可されている場合は、別言語に書き換える方もいますが、Javaだと以外にそんあことしなくても、C++から使えます。 なお、COM(DCOM)として提供されていれば、VBS、VBA(つまりエクセルから使える)、JScriptなどのオブジェクト指向スクリプト言語が使えます。また、そのように開発している方もおおいです。
お礼
ご回答ありがとうございました。 自分には敷居が高すぎました。
お礼
ご回答ありがとうございました。 自分には敷居が高すぎたようです。