• 締切済み

活字のデータ化

文章入力は通常パンチャーさん等人間の手で行うと思いますが、活字の文章をスキャナで読み取ってワードや一太郎等のワープロソフトに変換することはできないのでしょうか?声でも文字に変換できるようなので、活字のペーパーでも、変換できるのでは?と思い質問します。

みんなの回答

  • imogasi
  • ベストアンサー率27% (4737/17070)
回答No.4

OCR(OpticalCharacterRecogunition文字等認識)といわれる技術を用いた、OCRソフトで可能です。 http://www.ricoh.co.jp/omoshiro/ocr/ocr_2.html 機械はOCR(OpticalCharacterReader)です。 OCR OMR 手書きOCR 帳票完成OCR などに分けてみました。あとMICR,バーコード、諸コードなど。 まずスキャナで画像として読み取り(この段階で汚い・薄い・小さ過ぎる、余分な画像がある、などの物は霍乱要因になる、活字はこの点で有利)、その画像の文字と思われる部分について、その文字のあるべき特徴(どういう特徴を問題にするかは各社のソフトのノウハウ)を比較して推定・断定します(この部分をエンジンといいます)。 その場合に、辞書や文法・書法での約束にも照らして、その文字や語句の割り出しに最大限利用します。(利田とも利用とも利角とも読めるときは利用とするような) 語句の最初と最後を割り出すのも難しいものです。 推定できないものは、候補として表示し、人間に選んでもらいます。 そして最初はテキスト形式の文章などを決定します。 元原稿の色などは別に読み取ります。 罫線と文字の位置関係も難しいようです。 あとはワードなどの形式に組み立てるのですが、それはやるなら各社 差が出ません。 文字・語句の割り出し 色調の割り出し 罫線の割り出し 罫線を割り出して、元文書のセルの内容をエクセル形式にしてくれるか。色々な伝票などを罫線とデータに分けて再現してくれるか などに、各社ソフトの力の差が出て、価格も差が出ると思います。 以上は個人ではソフトを作るのは限界を超えているように思うので フリーのソフトは少ないでしょう。 スキャナを販売する場合の利用者の利便や販促のため付属している のが普通でしょうが、使うと不満があるかもしれません。しかし向上はしてるようです。 認識率(正しく割り出した文字数の比率は90%台と思いますが、活字の場合は、定型性があって、有利でしょう。昔は原稿が活字ということをソフトに教えて、特別処理をしていたようです。 人間がチェックのために読んで、訂正する場合の使い勝手などにも 差が出ます。 ---- A一般文書・罫線つき表文書・名刺・はがき Bエクセル・ワード・PDFなどが最終形 に分かれるようです。 ミドルウエアの会社の製品 5万円ぐらい http://software.fujitsu.com/jp/ocr/socr/ http://www.ricoh-soft.co.jp/solution/doc_solution/index.html OCRソフト会社 2万円ぐらい http://ai2you.com/ocr/product/kokomac7.asp など その他市販製品多数 http://www.amazon.co.jp/exec/obidos/tg/browse/-/11047181/ref=br_bx_1_c_2_1/250-0410363-9149034

すると、全ての回答が全文表示されます。
回答No.3

OCRという機能で可能です。 最近のスキャナは、OCR機能付きのみのも多いと思い ますが? どの程度、文字が正しく認識されるかは、価格などに よって変わってきます。 <参考> OMR:マークシートを認識して読み込む機能 OCR:文字を認識して読み込む機能

すると、全ての回答が全文表示されます。
回答No.2

pdfファイルにするのが一番手っ取り早いと思います。

すると、全ての回答が全文表示されます。
  • gtamo2
  • ベストアンサー率28% (119/424)
回答No.1

スキャナーを買うと大体OCRというソフトがおまけで付いてきます。それでテキスト化できます。あまり小さい文字やかすれた文字は認識できませんが。

すると、全ての回答が全文表示されます。

関連するQ&A