• 締切済み

PDFファイルからテキストを抽出したい

以前、質問させていただきましたが、もう一度お願いします。 多くのPDFファイルはLZWDecodeやFlateDecodeと言った圧縮が施されています。 これらの圧縮が施された部分を解凍したいのですが、どの様にしたらよいのでしょうか? stream~endstreamで囲まれた部分の切り出しは成功したのですが、 それ以降どのようにすればいいのか分かりません。 どなたかご協力お願いします。

みんなの回答

  • talepanda
  • ベストアンサー率58% (45/77)
回答No.1

プログラムの中でやりたいということなら、圧縮形式を調べて、非圧縮すればよろしいかと。 仕様はオープンで出てたはずです。 また、xpdfのpdftotextのソースコードを読めば参考になるかもしれません。 単に、テキストを抽出するツールが欲しいなら、xpdf付属のpdftotextで十分かと思います。

関連するQ&A