ベストアンサー

PDFで読み込み対応のスキャナについて。

2005/12/15 17:18

pdfはテキストもテキストデータとして扱えるので便利です。テキストはテキストデータとして読み込めると謳っている機種として、たとえば↓のような機種があります。 http://cweb.canon.jp/canoscan/lineup/9950fv/index.html 原稿をセットし、pdfで読み込むボタンを押すと、テキスト部分も認識してテキストとして読み込むそうです。便利だと思うのですが、このテキストの認識の精度はどれくらいなものなのでしょうか？ 1、新聞の文字 2、雑誌などの写真の上にある（カラーの）文字 3、手書き文字（無理だと思いますが…） 4、ワープロで印刷した明朝体の文字（紙の色は真っ白） 5、ざら紙に印刷された文字（新聞と似たような状態）以上の例で、読み取れるもの、読み取る精度の低いもの、まったく読み取れないものなどを教えてください。上記の例以外でもいいです。よろしくお願いします。

noname#19167

その他(ソフトウェア)
回答数4
ありがとう数4

みんなの回答 （4）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

koma1000nin
ベストアンサー率30% (342/1133)

2005/12/15 19:51 回答No.3

> 原稿をセットし、pdfで読み込むボタンを > 押すと、テキスト部分も認識してテキス > トとして読み込むそうです。この部分ですが、あまり信頼しない方がいいと思います。とくに複雑な背景の写真に表現された文字の認識は困難と思われます。また、どのようなフォント種に対応するのか、慎重に検討してください。一般的なやり方は、画面上で文字が表示されている範囲を選択してから「この部分を文字認識せよ」と指示する方法が確実です。なお識字率100%というのはありえません。 1、新聞の文字　最近の新聞は文字が大きくなっているので、　二色表現であれば紙質は問いません。　ただ、独特のフォントを採用している新聞が　あるので、なんとも言えません。 2、雑誌などの写真の上にある（カラーの）文字　二色表現の部分であればいいのですが、前記　したように、複雑な背景を持つと認識は困難　と思われます。 3、手書き文字（無理だと思いますが…）　画数の少ない角張った文字なら識字するでしょ　うが、一般の文字認識は不可能でしょう。 4、ワープロで印刷した明朝体の文字(紙の色は真っ白) 　これを標準にして識字率を標榜していますか　ら、メーカーの数字を信用してもいいでしょう。 5、ざら紙に印刷された文字(新聞と似たような状態) 　二色表現であれば、取り込んだ後で色の補正　をすれば問題ないと思いますが、ややケバが　立つので、(4)のケースよりも若干識字率が落　ちると思われます。いずれにしても、メーカー側は識字の最低条件としてのポイント数を明記していますので、これに準じてください。以上の意見は一般論ですので、この点お含みおきください。

質問者

お礼 2005/12/21 15:12

回答ありがとうございます。あまり実用的ではなさそうですね。しかし、家にある紙文書の電子化ができるというのは魅力的です。膨大なサイズになるかもしれませんが、今ではDVD-Rが安く買えるので容量の心配はしなくてすみそうです。しかしなぜサイズがA4までなんでしょうね。確かにA4が一番一般的かもしれませんが、雑誌とか、本とか、世の中にはA4を超えるサイズはいくらでもあります。スキャナの機能として半分ずつ取り込んで、合成もできるとありますが、そんなこと面倒でやってられません。せめてA3サイズまであればいいのに…。そしたらためらうことなく買うのに…。

その他の回答 (3)

koma1000nin
ベストアンサー率30% (342/1133)

2005/12/21 18:40 回答No.4

No.3のお礼に対する補足。固定スキャナではなく、ハンドスキャナであれば、横幅は固定かもしれないけれど、縦方向は無制限になりますね。ただし、人手で常に一定の速度を保って動かすのは無理でしょう。私も、現時点のスキャナ製品を買おうとは思っていません。スーパーのレジでやっているような、かざすだけで認識してくれるものがあれば、多少は高くても食指が動きます。

質問者

お礼 2005/12/21 18:50

ハンドスキャナは一枚のまっ平らな紙の上をなぞるならいいのですが、本などの波打つ表面をスキャニングするのは難しいですね。速度を一定にしないと、読み込んだ画像が伸びたり縮んだりするのですよね!? A3タイプのスキャナもあるようですが、値段がすごい高かったです。10万越え…。とても買えません。

bullfrog
ベストアンサー率22% (302/1370)

2005/12/15 19:42 回答No.2

スキャンした画像を「読取革命Lite」にかけているだけでしょうから、「読取革命」の体験版で試してみるとある程度わかるのではないでしょうか。 http://panasonic.co.jp/pss/pstc/products/yomikaku/demo.html 1.4.5.は認識できるかと思いますが、2.3.は辛いと思います。また、認識精度はそう高いものではないと考えておくと良いと思います。９９％と聞くと高そうに聞こえますが、100文字に1字は文字が違い、しかも、似た文字に間違えるわけですから探すのも大変です。紙や印刷の質が悪ければ、また、文字組が凝ったものであれば、もっと悲惨な結果になります。ＰＤＦの上に透明な文字でテキストデータを乗せるものだと思いますので、検索のキーワード程度になればいいということではないでしょうか。僕もスキャナで文書を取り込んでＰＤＦで管理していますが、ＯＣＲ結果をそのように使っています。

質問者