• ベストアンサー

PDFで読み込み対応のスキャナについて。

pdfはテキストもテキストデータとして扱えるので便利です。テキストはテキストデータとして読み込めると謳っている機種として、たとえば↓のような機種があります。 http://cweb.canon.jp/canoscan/lineup/9950fv/index.html 原稿をセットし、pdfで読み込むボタンを押すと、テキスト部分も認識してテキストとして読み込むそうです。 便利だと思うのですが、このテキストの認識の精度はどれくらいなものなのでしょうか? 1、新聞の文字 2、雑誌などの写真の上にある(カラーの)文字 3、手書き文字(無理だと思いますが…) 4、ワープロで印刷した明朝体の文字(紙の色は真っ白) 5、ざら紙に印刷された文字(新聞と似たような状態) 以上の例で、読み取れるもの、読み取る精度の低いもの、まったく読み取れないものなどを教えてください。上記の例以外でもいいです。よろしくお願いします。

質問者が選んだベストアンサー

  • ベストアンサー
回答No.3

> 原稿をセットし、pdfで読み込むボタンを > 押すと、テキスト部分も認識してテキス > トとして読み込むそうです。 この部分ですが、あまり信頼しない方がいいと 思います。とくに複雑な背景の写真に表現され た文字の認識は困難と思われます。また、どの ようなフォント種に対応するのか、慎重に検討 してください。 一般的なやり方は、画面上で文字が表示されて いる範囲を選択してから「この部分を文字認識 せよ」と指示する方法が確実です。 なお識字率100%というのはありえません。 1、新聞の文字  最近の新聞は文字が大きくなっているので、  二色表現であれば紙質は問いません。  ただ、独特のフォントを採用している新聞が  あるので、なんとも言えません。 2、雑誌などの写真の上にある(カラーの)文字  二色表現の部分であればいいのですが、前記  したように、複雑な背景を持つと認識は困難  と思われます。 3、手書き文字(無理だと思いますが…)  画数の少ない角張った文字なら識字するでしょ  うが、一般の文字認識は不可能でしょう。 4、ワープロで印刷した明朝体の文字(紙の色は真っ白)  これを標準にして識字率を標榜していますか  ら、メーカーの数字を信用してもいいでしょう。 5、ざら紙に印刷された文字(新聞と似たような状態)  二色表現であれば、取り込んだ後で色の補正  をすれば問題ないと思いますが、ややケバが  立つので、(4)のケースよりも若干識字率が落  ちると思われます。 いずれにしても、メーカー側は識字の最低条件と してのポイント数を明記していますので、これに 準じてください。 以上の意見は一般論ですので、この点お含みおき ください。

noname#19167
質問者

お礼

回答ありがとうございます。 あまり実用的ではなさそうですね。 しかし、家にある紙文書の電子化ができるというのは魅力的です。膨大なサイズになるかもしれませんが、今ではDVD-Rが安く買えるので容量の心配はしなくてすみそうです。 しかしなぜサイズがA4までなんでしょうね。確かにA4が一番一般的かもしれませんが、雑誌とか、本とか、世の中にはA4を超えるサイズはいくらでもあります。 スキャナの機能として半分ずつ取り込んで、合成もできるとありますが、そんなこと面倒でやってられません。せめてA3サイズまであればいいのに…。そしたらためらうことなく買うのに…。

その他の回答 (3)

回答No.4

No.3のお礼に対する補足。 固定スキャナではなく、ハンドスキャナであれば、横幅は固定かもしれないけれど、縦方向は無制限になりますね。ただし、人手で常に一定の速度を保って動かすのは無理でしょう。 私も、現時点のスキャナ製品を買おうとは思っていません。 スーパーのレジでやっているような、かざすだけで認識してくれるものがあれば、多少は高くても食指が動きます。

noname#19167
質問者

お礼

ハンドスキャナは一枚のまっ平らな紙の上をなぞるならいいのですが、本などの波打つ表面をスキャニングするのは難しいですね。速度を一定にしないと、読み込んだ画像が伸びたり縮んだりするのですよね!? A3タイプのスキャナもあるようですが、値段がすごい高かったです。10万越え…。とても買えません。

  • bullfrog
  • ベストアンサー率22% (302/1370)
回答No.2

スキャンした画像を「読取革命Lite」にかけているだけでしょうから、「読取革命」の体験版で試してみるとある程度わかるのではないでしょうか。 http://panasonic.co.jp/pss/pstc/products/yomikaku/demo.html 1.4.5.は認識できるかと思いますが、2.3.は辛いと思います。 また、認識精度はそう高いものではないと考えておくと良いと思います。99%と聞くと高そうに聞こえますが、100文字に1字は文字が違い、しかも、似た文字に間違えるわけですから探すのも大変です。紙や印刷の質が悪ければ、また、文字組が凝ったものであれば、もっと悲惨な結果になります。 PDFの上に透明な文字でテキストデータを乗せるものだと思いますので、検索のキーワード程度になればいいということではないでしょうか。僕もスキャナで文書を取り込んでPDFで管理していますが、OCR結果をそのように使っています。

noname#19167
質問者

お礼

お礼遅れて申し訳ありません。 文字認識はまだあまりよくないということがわかりました。 100文字に1文字、かなり多いですね。100文字なんてすぐですしね。 文字認識はあきらめてもう画像としての利用を考えたいと思います。文字選択してどこかに貼り付けるなんてことはあんまりしなそうだし…。

  • Pandaba
  • ベストアンサー率31% (90/283)
回答No.1

間違っているかもしれませんが。 取り込んだ画像をOCRソフトで読み取ってテキストファイルにするだけだと思います。 我が家では、1ランク下のLiDE500Fを使って「読取革命Lite」を使いますが。 ワンタッチというほどのスピードではありません。雑誌やカタログは、かなり誤認識します。

noname#19167
質問者

お礼

お礼遅れて申し訳ありません。 やはり文字認識はまだ実用的ではないのですね。 文字認識までは行かなくても、画像として保存する分には問題ないですよね!? 家にある膨大な紙の書類を電子化できるというのは非常に魅力的なので一応購入を検討しています。

関連するQ&A