- ベストアンサー
スキャナで作成したPDFからテキスト抽出
会社で過去の書類を大量にスキャナでPDFにしてあります。(数千ファイル程度) これらに中身がわかるようなファイル名を付けるために、PDFの中身を見てファイル名を付けるという作業をやることになりました・・・ それでどなたかご存知であればお教え願いたいのですが、下記要件を満たすソフトウェアはありませか? ・スキャナで作成したPDF(つまり画像ですね)からOCR的にテキストを抽出できる。 ・コマンドラインで動作する。(数が多いのでプログラムを書いて自動化したいのです) ・価格は5万円以内(できたら2万円以内です。購入は自腹になると思いますので、これ以上は厳しいです)
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
その他の回答 (1)
- mugi_to_ho
- ベストアンサー率18% (183/997)
回答No.1
お礼
回答ありがとうございます。 取引先からの注文書、請求書なのでそれなりにコンピュータで印字されていますが・・・直接PDFを見る分には品質は良くなさそうです。(何年も前の書類を電子化したという話です) やっぱり結果を考えると地道に行くしかなさそうですね。 半自動化はあきらめました。取引先マスタも現状未整備のようですので、それらの構築も含めて目で見て確認しながら情報を電子化していくことにします。
補足
後日このQAを見る方もいらっしゃるかと思いますので顛末を記載しておきます。 ・PDFファイルをOCRでデータに落とすのは断念しました。 ・代わりに、ファイルを開いたり必要項目を手早く入力できるような仕組みをAccessで構築しました。 ・また相手の会社名を入力する時間を短縮するため、IMEの辞書登録でTと入力すると「 株式会社Tタ自動車」と変換するような辞書登録をいくつか行いました。 ・結果として1時間当たり40ファイル+アルファ程度を処理できています。(全体のファイル数は1894ファイルでした。これもプログラムを作成してカウント) ・取引先からの注文書、請求書のフォーマットは相手先ごとにバラバラですので、結局は私の希望するようなOCRのOCX等があっても、どこのテキストがどの項目に対応するか人間の目で判断するプロセスは必要だったようです。 教訓:完全自動化などできなくても、効率を上げるような別の方法で我慢するのも一考。