- ベストアンサー
OCRソフトの活用方法とおすすめのソフトについて
- 仕事で紙の資料をスキャンし、OCRソフトを使うことで便利にデータ化する方法について教えてください。
- スキャナーで読み取った画像をOCRに変換する手順について教えてください。
- OCRソフトは罫線などを無視してしまうのか教えてください。
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
僕は、紙である必要のない文書は「読んde!!ココ」で透明テキスト付きPDFにしています。 OCRで認識した文字をPDFにするのですが、背景に読み込んだ画像が入っていて、文字色が透明になっています。そのため、見た目はただのスキャン画像なので印刷するともとの紙を再現できます。しかし、OCRの認識結果が入っているので検索することができます。 OCRは認識率が100%ではない(汚い印刷だと非常に厳しい)のですが、検索するときのキーワードとして使うなら、認識率が低くてもあまり困りません。 僕はこれを特定のフォルダにため込んで、サーチクロスで検索をかけています。便利ですよ。
その他の回答 (1)
- imogasi
- ベストアンサー率27% (4737/17069)
(1)スキャナで読み取り-->イメージ (2)特徴の抽出 正規化(回転・縮小ほか)をする。その後 XX法といったメソド(アルゴリズム)が古くから大学や企業で研究されている。(不勉強で○○法を列挙できません。) CPUスピードアップと機器安価化で日の目をみた理論もあろう。昔1980年代後半では手書きOCRは数千万円した。 数学的処理(計算)がなされて、指標が出てくるものが多い。 そして予め判っている文字等のその指標と比べて一致率が高い とそれを文字候補とする。 どう言う点を捉えてどう計算するかがミソです。 下記語句(術語)でWEB照会してください。 パターンマッチング OCR パターン認識 正規化相関 文字認識 http://www.ipsj.or.jp/members/Magazine/Jpn/1701/article002.html http://www2.tokai.or.jp/nandemo/exp/neuro_01.html http://www.yam.info.gifu-u.ac.jp/intro/intro_word.html http://www.mars.dti.ne.jp/~igusa/mojiken.htm http://it.jeita.or.jp/document/ocr_scanner/sakuin/honmon/ocr834c.html (3)辞書の併用 辞書を持って、その中の熟語や係り結びなどを手掛かりに、曖昧部分を推定する。 (「微○法」と読めれば○は辞書を調べ、「分」が入ると類推するようなこと。) (4)OCR文字の認識・バーコード認識-一般印刷文字認識-手書き文字認識と困難が増すが、認識率を上げる難しさがある。現在は90% の半ばぐらいか?
お礼
ありがとうございます。 お礼が大変遅れてしまいました。 なるほどいろいろな手法の歴史があるのですね。
お礼
へえっ!!という感じです。 面白そうですねえ。 近いうちに試してみたいと思います。 ありがとうございました。