• 締切済み

PDFを読み込んで、目次(しおりとページ番号)をテキスト出力したいです

PDFを読み込んで、目次(しおりとページ番号)をテキスト出力したいです。 Java/Perl/Php/c/c++いずれでもよいのでコマンドラインで動作するものを自作しようかとおもっていますが、フリーのライブラリで適当ものはありませんでしょうか? コマンドラインツールにしたいのは、多くのPDFを一度にバッチ的に処理したいので。 http://www.toshiba-living.jp/search_category_list.php?sc2=119 上記の取説のPDFを、Perlの PDF::API2を使って読み込んでみましたが、 malformed... のエラーとなり、PDFファイルを正常に読み込めませんでした。 JavaのiTextはimportするとしおりなどの情報は失われると聞いたことがあります。 phpのfpdfはpdf作成のためのもので、既存のpdfを読み込み、目次を取得できるのかよくわかりません。 Acrobt9 standardを購入すればできるのかもしれませんが、バッチ的にコマンドラインで実行できるのか、よく理解できていません。 できればフリーソフトでできればありがたいですが、なければ有償のソフトも検討したいです。 動作環境はCENTOS5.5が望ましいですが、無理ならWindowsXPでもOKです。 PDFプログラミングに詳しい方、よろしくお願いいたしmす。

みんなの回答

  • luka3
  • ベストアンサー率72% (424/583)
回答No.1

ざっと調べただけですが(PDFのプログラミングをしたことはありません) pdftkが希望に近いようです。 ・Pdftk - The PDF Toolkit http://www.pdflabs.com/tools/pdftk-the-pdf-toolkit/ 最初に検索で見つけたページ(サンプルソースあり) ・Webカタログ PDFしおり抽出/ NetColleper II http://spinnen.jp/bookmark.php 本家の例にあるように、 ≫Report on PDF Document Metadata, Bookmarks and Page Labels ≫pdftk mydoc.pdf dump_data output report.txt とすれば目次としおりが出力されます。 問題は日本語の対応ですかね。

関連するQ&A