締切済み

PDFそのものから、テキストの抽出

2004/11/14 05:35

PDFそのものから、テキストの抽出は可能ですか？ Acrobat 6では、テキスト保存機能がついているのでPDFをテキストファイルに保存できますよね。ということは、PDFでもテキストファイルで保存したものは、PDFそのものからテキスト抽出できるということですか？逆に、Acrobat 6以前ので作られた、バイナリデータとしてのPDFからは、そのままでは抽出できないということですか？

mighty5
お礼率80% (32/40)

Perl
回答数3
ありがとう数3

みんなの回答 （3）
専門家の回答

みんなの回答

Paulown
ベストアンサー率0% (0/0)

2004/12/06 14:06 回答No.3

PDFファイルの内部には確かにテキスト情報を持っています。そこから、テキスト抽出するソフトウェアは存在します。ただ、業務用の非常に高価なソフトが多いです。 Linux環境ですと、xpdfについてくるpdftotextというプログラムを使ってPDFからテキスト抽出できます。 Windows環境ですと、現実的にはAcrobat を使うことになると思います。 PDFの構造は公開されていますので、ご自分でテキスト抽出プログラムを作ることも不可能ではありません。