ベストアンサー

スキャナで作成したPDFからテキスト抽出

2010/11/13 01:46

会社で過去の書類を大量にスキャナでPDFにしてあります。（数千ファイル程度）これらに中身がわかるようなファイル名を付けるために、PDFの中身を見てファイル名を付けるという作業をやることになりました・・・それでどなたかご存知であればお教え願いたいのですが、下記要件を満たすソフトウェアはありませか？・スキャナで作成したPDF（つまり画像ですね）からOCR的にテキストを抽出できる。・コマンドラインで動作する。（数が多いのでプログラムを書いて自動化したいのです）・価格は５万円以内（できたら２万円以内です。購入は自腹になると思いますので、これ以上は厳しいです）

sppla
お礼率95% (23/24)

その他(業務ソフトウェア)
回答数2
ありがとう数2

みんなの回答 （2）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

mugi_to_ho
ベストアンサー率18% (183/997)

2010/11/14 00:28 回答No.2

手書きをスキャンしただけですよね？ＯＣＲソフト使っても、一件一件誤字確認しないとかなり難しいと思いますよ？試しに数件ＯＲＣしてみて認識具合いろんなソフトで確かめたほうが良いかと思います。また、ダイレクトに処理できなくても、ＰＤＦファイルを一括でＯＣＲ処理。ＯＣＲ処理したファイルをＶＢで作ったアプリケーションで一括処理でも工数敵に変わらないと思います。

質問者

お礼 2010/11/15 22:49

回答ありがとうございます。取引先からの注文書、請求書なのでそれなりにコンピュータで印字されていますが・・・直接ＰＤＦを見る分には品質は良くなさそうです。（何年も前の書類を電子化したという話です）やっぱり結果を考えると地道に行くしかなさそうですね。半自動化はあきらめました。取引先マスタも現状未整備のようですので、それらの構築も含めて目で見て確認しながら情報を電子化していくことにします。

質問者

補足 2010/11/28 01:02

後日このＱＡを見る方もいらっしゃるかと思いますので顛末を記載しておきます。・ＰＤＦファイルをＯＣＲでデータに落とすのは断念しました。・代わりに、ファイルを開いたり必要項目を手早く入力できるような仕組みをAccessで構築しました。・また相手の会社名を入力する時間を短縮するため、IMEの辞書登録でTと入力すると「株式会社Tタ自動車」と変換するような辞書登録をいくつか行いました。・結果として１時間当たり４０ファイル＋アルファ程度を処理できています。（全体のファイル数は1894ファイルでした。これもプログラムを作成してカウント）・取引先からの注文書、請求書のフォーマットは相手先ごとにバラバラですので、結局は私の希望するようなOCRのOCX等があっても、どこのテキストがどの項目に対応するか人間の目で判断するプロセスは必要だったようです。教訓：完全自動化などできなくても、効率を上げるような別の方法で我慢するのも一考。

ログインすると、全ての回答が全文表示されます。

その他の回答 (1)

mugi_to_ho
ベストアンサー率18% (183/997)

2010/11/13 05:53 回答No.1

スキャナーにＯＣＲソフトついてませんでしたか？ＯＣＲソフトはフリーでも有料でも沢山ありますよ？

質問者

お礼 2010/11/14 00:04

回答ありがとうございます。＞スキャナーにＯＣＲソフトついてませんでしたか？これは未確認です。すでに他の社員が一通りＰＤＦ化したファイルの山を提示されましたので・・・。とはいえこの点は未確認でした。今後もスキャナでのＰＤＦ化を行うと思いますのでこの点は確認してみます。質問文では説明が不足していましたが、私は11/1より業務改善担当というポジションになりました。社の現状は顧客情報のデータベースなどがなくＩＴ的には遅れている感じです。問題のＰＤＦも過去数年にわたる契約書、注文書等を他の社員がここ１年程度でＰＤＦ化したのですが、機械的にＰＤＦ化しただけで（ファイル名がただの連番で）中身が何かわからないので、これをファイル名でわかるようにしようとファイル名を付け替えているところです。「契約書の種類_会社名_契約日」みたいな命名ですね。これをやるためにはＰＤＦから必要な事項である「契約書の種類」「会社名」「契約日」を読み取る必要があります。これをファイル名の生成に使うだけではなくこの機会にデータベース化しようと私は考えています。いずれにしろこれらの項目のテキストデータがあると作業は早くなります。今回は対象が数千ファイルほどありますので、ＯＣＲの機能を利用して入力の手間を省けないかというのが質問の趣旨でした。（ＶＢ系ならある程度のプログラミングはできますので）ＯＣＲソフトはご指摘の通りいろいろありますが、プログラミングして自動化するためにコマンドラインで実行できるものを探していました。投稿後にコマンドラインだけでなくVB、VB.net（C# .net）から利用できるDLL、OCXでも構わないと気づきましたのでそちらの方向でも探してみることにします。現在はマイクロソフトのDocument Imagingを調査中です。

ログインすると、全ての回答が全文表示されます。