• 締切済み

PDFのOCR化でファイルサイズが小さくなる理由

すみません。  どなたか、回答よろしくお願いします。  印刷されたドキュメントをスキャンして、PDFファイルで保存した後、スキャンソフトにOCR化の機能が付いていたので、OCR化すると、ファイルサイズがかなり小さくなりました。  これはなぜでしょうか。  最初は、画像データが文字コードに置き換えられたからだと思っていたのですが(OCRの原理を調べてもそのようなことが書いてあったので。)、そのファイルの文字をみても、文字の形(フォント等、かすれ具合等)はどうみてもOCR化される前の画像データ?と変わりません。  そうすると、OCR化したファイルは、文字の画像データとこれに対応する文字コードデータを持たなければならなくなり、かえってデータ量が増えるような気がします。  でも、現実には減少しているので、いったいどのような仕組みになっているのでしょうか。  そもそもPDFファイルの仕組み(まったくの画像データではないようですね。)や、OCRの理解が不十分なので、よけい分からないのですが、初心者にも分かるようにご説明いただけたら有り難いです。  よろしくお願いします。

みんなの回答

回答No.2

多分ですが。 OCR化は画像のシャープネスとノイズ削除によって OCRソフトで認識しやすい画像に補正していると思われます。 その結果、画像事態が簡素化され圧縮率が上がる結果と成ったと思います。 しかし、元画像の再現性が犠牲になっていると思います。

  • kichi8000
  • ベストアンサー率41% (660/1584)
回答No.1

OCRでの再圧縮の際、最適な圧縮が適用されたのではないでしょうか。

関連するQ&A