ベストアンサー

PDFファイルの文字を取得するプログラム

2011/04/07 20:25

http://kanpoo.jp/ のサイトで、検索すると、PDFの内容が検索できます。検索できるということは、PDFの文字を取得できるからだと思うのです。 PDFの文字をデータベースに読み込みプログラムを作りたいです。とりあえず、PDFの文字を取得するプログラムを作りたいのですが、作り方が全くわかりません。どの言語をつかえばいいのか？どの関数、ライブラリ？をつかえばいいのか？何度ググっても、PDFの文字を取得するサイトがみつけられないので、偉い人教えてください。

mcurry
お礼率73% (167/228)

その他（プログラミング・開発）
回答数3
ありがとう数4

みんなの回答 （3）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

noname#161640

2011/04/08 09:38 回答No.2

標準でそういう機能を持っている言語はあまりないと思います。そのためのライブラリなどを追加して処理することになるでしょう。例えば、Javaの場合、Apache Software Foundationから「PDFBox」というライブラリが出ています。これを利用することで、PDFからテキストを取得できます。 http://pdfbox.apache.org/

質問者

お礼 2011/05/24 22:20

ご回答ありがとうございました。自分には敷居が高すぎたようです。

その他の回答 (2)

kabaokaba
ベストアンサー率51% (724/1416)

2011/04/08 23:20 回答No.3

わざわざ作らなくたってテキストを引っ張り出すツールを呼び出せばいい xpdfのpdftotextとかが使えるし， namazuのようにpdfも全文検索できるものがどうやってるのかをみればいい（namazuのインデクサはxpdfを使ってたような）.

質問者

お礼 2011/05/24 22:19

ご回答ありがとうございました。 pdftotextを使用してみましたが、日本語がうまく変換できませんでした。

0909union
ベストアンサー率39% (325/818)

2011/04/07 21:12 回答No.1

開発やったことない方なら、たしかにたどれないかもしれませんね。通常、 SDK OpenSouce オープンソース API のキーワードを、アプリ名とか、ファイル形式について検索します。有償であったり、無償であったりします。オープンソースと言うのは無償で、プログラムの内容を公開し、使ってもらうプログラムの事をさします。 http://www.google.co.jp/search?hl=ja&q=Acrobat+SDK&lr=lang_ja http://www.google.co.jp/search?hl=ja&q=PDF+%E3%82%AA%E3%83%BC%E3%83%97%E3%83%B3%E3%82%BD%E3%83%BC%E3%82%B9&lr=lang_ja とかですね。その中から、 http://www.infoq.com/jp/news/2007/12/sun-releases-lgpl-pdf-renderer http://journal.mycom.co.jp/articles/2009/02/20/pdfcreator/index.html http://kengo.preston-net.com/archives/002506.shtml http://kb2.adobe.com/jp/cps/255/2558.html これらとは別に、企業同士で提携すると、デベロッパー版が渡されます。それがSDKとか、フレームワークとか、API、SPIとかよばれるものです。開発環境は、当然それらの物に依存するので、何かとは特定できませんが、昔からあるものなら、CがVBが多いです。最近のものなら、C++、C#、Javaが多いです。やる気があるひとなら、また許可されている場合は、別言語に書き換える方もいますが、Javaだと以外にそんあことしなくても、C++から使えます。なお、COM（DCOM）として提供されていれば、VBS、VBA（つまりエクセルから使える）、JScriptなどのオブジェクト指向スクリプト言語が使えます。また、そのように開発している方もおおいです。

質問者

お礼 2011/05/24 22:18

ご回答ありがとうございました。自分には敷居が高すぎました。

PDFファイルの文字を取得するプログラム