• ベストアンサー

PDFの透明化テキストを抽出したい。

Androidスマートフォンで小説等を読むために、業者に依頼してPDF+透明化テキストしましたが、端末画面が小さくて読めません。 もちろん拡大すれば読めるのですが、スクロールするのは使い勝手が悪く、テキストビューワーなら表示フォントを大きくしてみることが出来ますが、PDF+透明化テキストされたファイルからテキストのみを抽出する方法を教えていただけないでしょうか。 フリーのソフトを希望します。 よろしくお願い致します。

質問者が選んだベストアンサー

  • ベストアンサー
回答No.4

元々の透明化されたテキストの認識率が90%程度なので、意味が取れない箇所が出てくるでしょうね それを承知の上でよいのなら、後はPDFのセキュリティー設定しだいです。 何も制限を掛けていないなら、PDFを適当なヴューワで開き、後は「全て選択」「コピー」適当なテキスト・エディタに「貼り付け」れば、テキスト・データだけ取り出せます。 但し、行末に改行が入っているので、そのままでは読みにくいかもしれません。

sai34
質問者

お礼

休日の貴重なお時間を割いていただきありがとうございます。 アドバイスいただいたとおり、PDFを開いて全て選択、コピーしてテキス・エディタに貼り付けましたらテキスト化出来ました。 ご指摘の通り、識字率の問題・レイアウトの問題がありますが、テキスト保存できることを確認致しました。 誠にありがとうございました。

その他の回答 (3)

  • koko_u_u
  • ベストアンサー率18% (216/1139)
回答No.3

言うまでもないことですが、コマンドラインツールですよ。 プロンプトから pdftotext input.pdf output.txt などと指定しましょう。 大量に pdf ファイルがある場合は適当にバッチファイルを作るなりしてください。

sai34
質問者

補足

お手数をおかけいたします。 どうも私のPC技量では無理のようです。 ありがとうございました。

  • edomin7777
  • ベストアンサー率40% (711/1750)
回答No.2

Xpdf ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl5-win32.zip たぶんここ…。(直接ダウンロード)

sai34
質問者

補足

度々お手数をおかけいたします。 ダウンロードし実行致しましたが何事も起きません。 当方、Windows7 64bit版のためでしょうか。

  • koko_u_u
  • ベストアンサー率18% (216/1139)
回答No.1

xpdf に付属の pdftotext を試してみましょう。私は使ったことない。

sai34
質問者

補足

休日の貴重なお時間を割いていただきありがとうございます。 xpdfは存じ上げませんが、Windows7対応でしょうか。 検索しましたがexe本体のダウンロード先がよくわかりません。

関連するQ&A