- 締切済み
PDF文書を正確にテキスト変換するツールについて
ご存知の方がいらっしゃればアドバイスをお願いします。 現在、いろいろなツールを使用してPDF文書からテキスト変換を行っているのですが、 望んだ通りのものが出力されません。 ------------------------------------------------------------------------ (1)PDF文書 00000000 あいうえお 00000010 かきくけこ 00000020 さしすせそ 00000030 たちつてと 00000040 〇〇 さん から △△ さん へ (2)変換後 00000000 あいうえお00000010 かきくけこ 00000020 さしすせそ 00000030たちつてと 00000040 〇〇さんから △△さんへ ------------------------------------------------------------------------ 上記は変換後の1例になりますが、ネットで調べて、様々な変換ツールを使用しても 改行やスペースをうまく判断してくれません。 ある程度までなら我慢しようと思うのですが、できるだけ正確にPDFをそのままテキスト変換 したいと考えております。 どなたかPFDを見た目そのままにテキスト変換するツールについて、お勧めのものがあれば アドバイスをお願い致します。 フリー、シェアの如何は問いませんので、宜しくお願い致します。
- みんなの回答 (2)
- 専門家の回答
みんなの回答
- shintaro-2
- ベストアンサー率36% (2266/6245)
古いデータですが、 「リッチテキストPDF2」「Acrobat 8 Standard」「同Professional」「PDF2Office Personal Version 2.0」が、元々のPDFの文書構造を解析してテキスト抽出するタイプだったようですので、これらの新しいソフトを検討されては如何でしょう? http://pc.nikkeibp.co.jp/article/NPC/20070130/260016/
- ORUKA1951
- ベストアンサー率45% (5062/11036)
PDFを作成した文書や印刷(PDF化)ツールに依存するのです。 いっそのこと、画像としてOCRを使用するほうが良いです。そのかわり文字は誤判断されることがあります。 理由) PDFはPostscriptデータという印刷データを可視化したものだからです。 以前 ⇒Acrobat ProとAdobe readerの - その他(ソフトウェア) - 教えて!goo( http://okwave.jp/qa/q8136284.html ) で極簡単に説明したので・・、直接は関係ないですがお読みいただけたらと思います。
お礼
ご回答、ありがとうございます。 作業上、大量のPDFデータに対して検索やgrepを 行う必要があり、テキストデータとして保存したいと 考えています。 PDFでも検索、grepが可能なことは承知していますが、 効率の面からどうしてもテキスト化したいと考えています。
お礼
お礼が遅れて申し訳ありません。 教えて頂きましたツールについて、体験版等を入手し、 試して見たいと思います。 >元々のPDFの文書構造を解析してテキスト抽出するタイ>プだったようですので、・・・・・ この視点でツールを探せばよかったのですね。 目から鱗でした。。。。。