- 締切済み
PDFそのものから、テキストの抽出
PDFそのものから、テキストの抽出は可能ですか? Acrobat 6では、テキスト保存機能がついているのでPDFをテキストファイルに保存できますよね。 ということは、PDFでもテキストファイルで保存したものは、PDFそのものからテキスト抽出できるということですか? 逆に、Acrobat 6以前ので作られた、バイナリデータとしてのPDFからは、そのままでは抽出できないということですか?
- みんなの回答 (3)
- 専門家の回答
みんなの回答
- Paulown
- ベストアンサー率0% (0/0)
回答No.3
PDFファイルの内部には確かにテキスト情報を持っています。そこから、テキスト抽出するソフトウェアは存在します。ただ、業務用の非常に高価なソフトが多いです。 Linux環境ですと、xpdfについてくるpdftotextというプログラムを使ってPDFからテキスト抽出できます。 Windows環境ですと、現実的にはAcrobat を使うことになると思います。 PDFの構造は公開されていますので、ご自分でテキスト抽出プログラムを作ることも不可能ではありません。
- kanachan0099
- ベストアンサー率46% (6/13)
回答No.2
>PDFそのものから、テキストの抽出は可能ですか? http://www.geocities.co.jp/SiliconValley-Bay/1992/tips/pdf2text.html を参照してみてください。
- kotaechan
- ベストアンサー率38% (351/913)
回答No.1
Acrobat 6以前ので作られたものでも、Acrobat 6で読み込めば、テキスト抽出できます。
お礼
回答どうもありがとうございます! ということは、Acrobat 6以前ので作られたものは、 Acrobat 6で読み込まない限り、PDFそのものからテキスト抽出は無理ということでしょうか? 何か参考になるURLがあれば教えてくださると、助かります。 よろしくお願いします。