- ベストアンサー
OCR化の精度について
現在CanonのピクサスMP270の購入を検討中のものです。 ほぼこちらの商品を購入するつもりなのですが一つだけ気になるところがあります。 それは スキャナーから取り込んだ自筆の文章ををOCR化してテキストデータにしたいのですがどれくらいの精度なのでしょうか?字ははっきり言って汚いです。 ということです。 スキャナーのスペックは1200dpi CISで取り込み可でソフトは読取り革命liteを使用するとのことです。 どなたかわかる方解答宜しくお願いしますm(_ _)m
- みんなの回答 (3)
- 専門家の回答
質問者が選んだベストアンサー
過信無用 ~ 手書き文字は絶望的です ~ ふつうのスキャナーに付属のOCRソフトは、いわゆる手書き文字に 対応していません。 いくら丁寧に書かれても、活字や植字の規格には及ばないからです。 わたしは、数千枚の手書き資料を、つぎの方法で管理しています。 とりあえず、サイズや形状ごとに「連続給紙に連続番号」で保存し、 縮小印刷(A4片面に4頁)で、目録をつくります。 目録をもとに、タイトルを手打ちして、連続番号に追記します。 エクセルで一覧表を作り、必要に応じてキーワードを補足します。 (縮小画像と記憶の組合せで、たいがいは探しだせます) なお、通常のOCR認識では、あらかじめ傾きを整え(白インキで) 汚れを消しておくのが効率的です。古い紙資料は、いったんコピー印刷 してから再読みこみすれば、精度が向上します。 わたしは、A3複合機を使っていますが、OCRはA4版以内です。 A3見開き原稿は、コピー印刷し、A4に裁断してから、あらためて OCRで読みとっています(ソフトによっては傾きの自動補正あり)。
その他の回答 (2)
- 安房 与太郎(@bilda)
- ベストアンサー率27% (228/822)
>エクセルに打ち込んだタイトルがあれば必要な部分は見つかる< 文書量が多い場合とか、タイトル以上に重要なキーワードについては 「目録があった方が便利」ですね。 画像タイトル一覧には、つぎのソフトが便利です。 http://q.hatena.ne.jp/1258061678#a966001 手順先後 ~ 始めにタイトルありき ~
お礼
ありがとうございます。是非実践してみたいと思います!
OCRには1200dpiもあれば十分ですが、活字の場合でも100%とはいきません。文字サイズにもよりますが、80~90%ぐらいです。 手書きで、それも楷書でないなら、認識率はかなり低くなります。個人差もありますが、草書レベルだと30%以下ではないでしょうか。
お礼
回答ありがとうございます。 30%ですか;;思ったより断然低いです… 最近では雑誌とかで紙から離れよう!というような記事を見かけるので期待しすぎました↓手書きは技術的に難しいのですね。 ありがとうございましたm(_ _)m
補足
お礼が遅くなってすいませんm(_ _)m投稿してたつもりでしたが出来てませんでした;; 詳しい説明やテクニックを教えて頂いてありがとうございます。 手書き文字のOCR化は難しそうなので教えて頂いた方法を試させてもらいたいと思います。 一つお聞きしたいのですがエクセルに打ち込んだタイトルがあれば必要な部分は見つかるかと思うのですが目録があった方が便利なのでしょうか?