• ベストアンサー

PDFファイルからテキストを取り出す方法。

英語の論文のPDFファイルがあります。これを翻訳ソフトに渡すためテキストに変換したいんです。 しかしPDFから全テキストを選択し、それをテキストファイルにペーストすると、文字列”fi”が” ̄”に、”fl”が”゜”に、”effect”が”eRect”に化けたりします。こういった文字化けの種類が多いので、一括置換機能を使っても全種類置換していくとなると大変手間がかかります。 PDFを正常にテキストファイルに出来るソフトを教えていただけないでしょうか。

質問者が選んだベストアンサー

  • ベストアンサー
回答No.2

テキストファイルにペーストした時に「文字列”fi”が” ̄”に、”fl”が”゜”に、”effect”が”eRect”に化けたり」するのは、オリジナルの文書において「f」と「l」、「f」と「f」といった2つの文字を合体させて、1つの文字列に置き換えていたためで、 DTPの分野で「リガチャー」と呼ばれる文字送り方法です。 「リガチャー」の実現方法は色々ありますが、ご指摘の症状から言って、懸案のPDFファイルでは外字フォントを用いて実現していたものかと思われます。 原因は以上ですので、PDF文書で使われているのと同じフォントを用いれば表示できる可能性はありますが、それでは人にはわかっても、翻訳ソフトには(文字として)理解できません。 結論としては、PDFファイルをプリントアウトして、それをOCRソフトで認識させて、その結果をさらに翻訳ソフトにかけるといった手順になるでしょうか。 OCRソフトでは「リガチャー」をきちんと認識して、「fl」や「ff」として出力してくれる製品が多くあります。

beese1995
質問者

お礼

いったんアナログにしなければいけないんですね。ODRソフトとスキャナを持っていないので今回は出来なさそうですが、原因の推理ともども参考になりました。御回答有難う御座います。

その他の回答 (1)

  • jiabbit
  • ベストアンサー率51% (100/194)
回答No.1

こんなものは、いかがどうでしょうか? ●xdoc2txt http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html ●PDFファイルからテキスト抽出 http://www.twcu.ac.jp/~k-oda/VIRN/JARVI-MLTD/Windows/PDFtoTEXT.html

beese1995
質問者

お礼

xdoc2txtは、文字化けの種類は減るのですが「スペース」が無くなり、ほとんどの単語がつながってしまいました。 アドビにメールする方法でも、やはりもじばけしてしまいました。アドビはこんなサービスも行っていたんですね。御回答、参考になりました。