- ベストアンサー
PDFファイルをWordかExcelに変換したい。
PDFファイル中の文字が、なぜか少しにじんで、文字として読めるのですが、テキストとして認識しません。このような状態のPDFファイルをWordに変換するOCRソフトを教えて下さい。できたらフリーがいいですが、なければシェアウェアでもいいです。
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
PDFからWordなどに直接変換するソフトは多分、フリーやシェアウェアでは無いと思われます。 また、OCRのソフトですが、PDFをそのままOCRするには、Adobe社のAcrobatを使用する方法か専用のOCRソフトを購入する必要があると思います。 専用のOCRソフトでは、『読んでココ』と言うソフトが比較的有名かと思います。 http://ai2you.com/ocr/ フリーで行いたいのでしたら次の方法が提案できます。 1.PDFをJPG画像に変換する。また文字の輪郭をはっきりさせる。PDFに書き戻す(ChainLP) 2.1で作成した文字輪郭をはっきりさせたJPG画像のOCRをかける(i2OCR:Webサービスです) 3.OCRの結果と1で書き戻したPDFを結合する(PrimoPDF) それぞれソフト及びウェブサービスはサイトは以下にいあります。 ChainLP http://no722.cocolog-nifty.com/blog/chainlp/ i2OCR http://www.sciweavers.org/free-online-ocr PrimoPDF http://www.primopdf.com/index.aspx しかし、i2OCRの文字認識率は非常に低いです。 もし、質問者様がにじんだ文字を少し読みやすくしたいと言うだけでしたらChainLPを使われるとにじみは少なくなると思います。 さらに、テキストとして認識される部分までを目的とするのでしたら期待される結果は得られにくいと思います。i2OCRの文字認識率が非常に低いためです。 上記のAcrobatや読んでココなどのOCRを持ちいれば、テキストとしては認識するようになりますが、文字のにじみは直らないと思います。また、これらのOCR専用ソフトであっても文字認識率は100%にはなりません。なぜなら、OCRそのものの機能が画像を解析して、解析結果近い文字をあてはめる作業を行うからです。解析アルゴリズムは各社様々ですが、画像->文字へ変換するための完璧なアルゴリズムは現状存在しません。にじんでいる画像PDFなら尚更認識率は下がる事と思います。 Acrobatも読んでココも体験版があると思いますので、実際使われてみると認識率がわかると思います。 OCRが完璧で無い以上、仮にWordなどを生成しても完璧なWordが出来ないと言う事です。 綺麗に読みたいか、テキストとして認識したいかのどちらかに分けられてソフトを選択されるといいかと思います。
その他の回答 (1)
- a0832669
- ベストアンサー率30% (45/148)
出来るかどうかは不明ですが pdftoexcel もしくは pdftoword と検索してみてください。 アメリカのサイトですがfreeで変換してもらえます。 一部、出来ないpdfもあるようですが、便利なサイトなので使用してます。 お試しください。
お礼
質問に答えて頂いてありがとうございました。 しかし、このサイトは使用してみましたがもりでした。