- ベストアンサー
PDFから文字化けしないテキスト変換方法は?
スキャンスナップで自炊したPDFファイルをOCR処理や文字をメモ帳にコピペしテキストファイル化すると、どうしても文字化けしてしまいます。保存の形式も色々と試しましたが中国語みたいな漢字に変換や文字抜けが発生します。文字化けしない良い方法はありますか?ご教示よろしくお願いいたします。
- みんなの回答 (1)
- 専門家の回答
質問者が選んだベストアンサー
自炊だとテキスト情報はOCRで生成するわけですが、OCRの認識率が100%じゃない以上は文字化けなどはどうしても発生してしまいます。いまどきのOCRなら99%かそれ以上の認識率はあるでしょうけど、99%だって100文字読んだら1文字は間違える計算になり、まとまった量の文字を読ませれば結構な誤読が発生してしまうことに。 テキストをコピペする方法にかかわらず、元になるテキストに誤読があるわけだから、いかなる方法でコピペしようと文字化けは回避不可能です。気が付いた時点で「必殺・全手動修正」を発動させるしかありません。 出来上がりのファイルサイズを小さくするために、取り込みの時の解像度を下げすぎると誤読が増えやすいので、ここはあまりケチらない方が良いかとは思います。面倒だけど、見た目や認識率、ファイルサイズのバランスを取れる設定を試行錯誤する必要があるでしょう。
お礼
ご回答ありがとうございます。 そうですよねなかなか難しいですよね もう少しチャレンジしてみます。ありがとうございました