ベストアンサー

PDFファイルからテキストを取り出す方法。

2004/07/03 22:43

英語の論文のPDFファイルがあります。これを翻訳ソフトに渡すためテキストに変換したいんです。しかしPDFから全テキストを選択し、それをテキストファイルにペーストすると、文字列”fi”が”￣”に、”fl”が”゜”に、”effect”が”eRect”に化けたりします。こういった文字化けの種類が多いので、一括置換機能を使っても全種類置換していくとなると大変手間がかかります。 PDFを正常にテキストファイルに出来るソフトを教えていただけないでしょうか。

beese1995
お礼率88% (23/26)

フリーウェア・フリーソフト
回答数2
ありがとう数6

みんなの回答 （2）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

tetsus_2000
ベストアンサー率67% (467/696)

2004/07/04 10:38 回答No.2

テキストファイルにペーストした時に「文字列”fi”が”￣”に、”fl”が”゜”に、”effect”が”eRect”に化けたり」するのは、オリジナルの文書において「f」と「l」、「f」と「f」といった2つの文字を合体させて、1つの文字列に置き換えていたためで、 DTPの分野で「リガチャー」と呼ばれる文字送り方法です。「リガチャー」の実現方法は色々ありますが、ご指摘の症状から言って、懸案のPDFファイルでは外字フォントを用いて実現していたものかと思われます。原因は以上ですので、PDF文書で使われているのと同じフォントを用いれば表示できる可能性はありますが、それでは人にはわかっても、翻訳ソフトには（文字として）理解できません。結論としては、PDFファイルをプリントアウトして、それをOCRソフトで認識させて、その結果をさらに翻訳ソフトにかけるといった手順になるでしょうか。 OCRソフトでは「リガチャー」をきちんと認識して、「fl」や「ff」として出力してくれる製品が多くあります。

質問者