• 締切済み

PDFそのものから、テキストの抽出

PDFそのものから、テキストの抽出は可能ですか? Acrobat 6では、テキスト保存機能がついているのでPDFをテキストファイルに保存できますよね。 ということは、PDFでもテキストファイルで保存したものは、PDFそのものからテキスト抽出できるということですか? 逆に、Acrobat 6以前ので作られた、バイナリデータとしてのPDFからは、そのままでは抽出できないということですか?

みんなの回答

  • Paulown
  • ベストアンサー率0% (0/0)
回答No.3

PDFファイルの内部には確かにテキスト情報を持っています。そこから、テキスト抽出するソフトウェアは存在します。ただ、業務用の非常に高価なソフトが多いです。 Linux環境ですと、xpdfについてくるpdftotextというプログラムを使ってPDFからテキスト抽出できます。 Windows環境ですと、現実的にはAcrobat を使うことになると思います。 PDFの構造は公開されていますので、ご自分でテキスト抽出プログラムを作ることも不可能ではありません。

参考URL:
http://partners.adobe.com/public/developer/pdf/index_reference.html
回答No.2

>PDFそのものから、テキストの抽出は可能ですか? http://www.geocities.co.jp/SiliconValley-Bay/1992/tips/pdf2text.html を参照してみてください。

参考URL:
http://www.geocities.co.jp/SiliconValley-Bay/1992/tips/pdf2text.html
  • kotaechan
  • ベストアンサー率38% (351/913)
回答No.1

 Acrobat 6以前ので作られたものでも、Acrobat 6で読み込めば、テキスト抽出できます。

mighty5
質問者

お礼

回答どうもありがとうございます! ということは、Acrobat 6以前ので作られたものは、 Acrobat 6で読み込まない限り、PDFそのものからテキスト抽出は無理ということでしょうか? 何か参考になるURLがあれば教えてくださると、助かります。 よろしくお願いします。

関連するQ&A