- ベストアンサー
スキャナで作成したPDFからテキスト抽出
会社で過去の書類を大量にスキャナでPDFにしてあります。(数千ファイル程度) これらに中身がわかるようなファイル名を付けるために、PDFの中身を見てファイル名を付けるという作業をやることになりました・・・ それでどなたかご存知であればお教え願いたいのですが、下記要件を満たすソフトウェアはありませか? ・スキャナで作成したPDF(つまり画像ですね)からOCR的にテキストを抽出できる。 ・コマンドラインで動作する。(数が多いのでプログラムを書いて自動化したいのです) ・価格は5万円以内(できたら2万円以内です。購入は自腹になると思いますので、これ以上は厳しいです)
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
手書きをスキャンしただけですよね? OCRソフト使っても、一件一件誤字確認しないとかなり難しいと思いますよ? 試しに数件ORCしてみて認識具合いろんなソフトで確かめたほうが良いかと思います。 また、ダイレクトに処理できなくても、PDFファイルを一括でOCR処理。 OCR処理したファイルをVBで作ったアプリケーションで一括処理でも工数敵に変わらないと思います。
その他の回答 (1)
- mugi_to_ho
- ベストアンサー率18% (183/997)
スキャナーにOCRソフトついてませんでしたか? OCRソフトはフリーでも有料でも沢山ありますよ?
お礼
回答ありがとうございます。 >スキャナーにOCRソフトついてませんでしたか? これは未確認です。すでに他の社員が一通りPDF化したファイルの山を提示されましたので・・・。とはいえこの点は未確認でした。今後もスキャナでのPDF化を行うと思いますのでこの点は確認してみます。 質問文では説明が不足していましたが、私は11/1より業務改善担当というポジションになりました。社の現状は顧客情報のデータベースなどがなくIT的には遅れている感じです。問題のPDFも過去数年にわたる契約書、注文書等を他の社員がここ1年程度でPDF化したのですが、機械的にPDF化しただけで(ファイル名がただの連番で)中身が何かわからないので、これをファイル名でわかるようにしようとファイル名を付け替えているところです。「契約書の種類_会社名_契約日」みたいな命名ですね。 これをやるためにはPDFから必要な事項である「契約書の種類」「会社名」「契約日」を読み取る必要があります。これをファイル名の生成に使うだけではなくこの機会にデータベース化しようと私は考えています。いずれにしろこれらの項目のテキストデータがあると作業は早くなります。今回は対象が数千ファイルほどありますので、OCRの機能を利用して入力の手間を省けないかというのが質問の趣旨でした。(VB系ならある程度のプログラミングはできますので) OCRソフトはご指摘の通りいろいろありますが、プログラミングして自動化するためにコマンドラインで実行できるものを探していました。投稿後にコマンドラインだけでなくVB、VB.net(C# .net)から利用できるDLL、OCXでも構わないと気づきましたのでそちらの方向でも探してみることにします。現在はマイクロソフトのDocument Imagingを調査中です。
お礼
回答ありがとうございます。 取引先からの注文書、請求書なのでそれなりにコンピュータで印字されていますが・・・直接PDFを見る分には品質は良くなさそうです。(何年も前の書類を電子化したという話です) やっぱり結果を考えると地道に行くしかなさそうですね。 半自動化はあきらめました。取引先マスタも現状未整備のようですので、それらの構築も含めて目で見て確認しながら情報を電子化していくことにします。
補足
後日このQAを見る方もいらっしゃるかと思いますので顛末を記載しておきます。 ・PDFファイルをOCRでデータに落とすのは断念しました。 ・代わりに、ファイルを開いたり必要項目を手早く入力できるような仕組みをAccessで構築しました。 ・また相手の会社名を入力する時間を短縮するため、IMEの辞書登録でTと入力すると「 株式会社Tタ自動車」と変換するような辞書登録をいくつか行いました。 ・結果として1時間当たり40ファイル+アルファ程度を処理できています。(全体のファイル数は1894ファイルでした。これもプログラムを作成してカウント) ・取引先からの注文書、請求書のフォーマットは相手先ごとにバラバラですので、結局は私の希望するようなOCRのOCX等があっても、どこのテキストがどの項目に対応するか人間の目で判断するプロセスは必要だったようです。 教訓:完全自動化などできなくても、効率を上げるような別の方法で我慢するのも一考。