- 締切済み
PDFのOCR化でファイルサイズが小さくなる理由
すみません。 どなたか、回答よろしくお願いします。 印刷されたドキュメントをスキャンして、PDFファイルで保存した後、スキャンソフトにOCR化の機能が付いていたので、OCR化すると、ファイルサイズがかなり小さくなりました。 これはなぜでしょうか。 最初は、画像データが文字コードに置き換えられたからだと思っていたのですが(OCRの原理を調べてもそのようなことが書いてあったので。)、そのファイルの文字をみても、文字の形(フォント等、かすれ具合等)はどうみてもOCR化される前の画像データ?と変わりません。 そうすると、OCR化したファイルは、文字の画像データとこれに対応する文字コードデータを持たなければならなくなり、かえってデータ量が増えるような気がします。 でも、現実には減少しているので、いったいどのような仕組みになっているのでしょうか。 そもそもPDFファイルの仕組み(まったくの画像データではないようですね。)や、OCRの理解が不十分なので、よけい分からないのですが、初心者にも分かるようにご説明いただけたら有り難いです。 よろしくお願いします。
- みんなの回答 (2)
- 専門家の回答
みんなの回答
- sazitarius
- ベストアンサー率59% (57/96)
回答No.2
多分ですが。 OCR化は画像のシャープネスとノイズ削除によって OCRソフトで認識しやすい画像に補正していると思われます。 その結果、画像事態が簡素化され圧縮率が上がる結果と成ったと思います。 しかし、元画像の再現性が犠牲になっていると思います。
- kichi8000
- ベストアンサー率41% (660/1584)
回答No.1
OCRでの再圧縮の際、最適な圧縮が適用されたのではないでしょうか。