• 締切済み

googleドライブのPDF→テキスト化OCR機能

googleドライブにアップロードした、PDFファイルを テキストに変換するOCR機能というのを利用しています。 漢字がよく中国て使われる繁体字に変換になってしまうことがあるのですが、 日本国内でよく使われる漢字のみに絞って変換するような設定はないでしょうか? 詳しい方いらっしゃいましたら、教えてください。 よろしくお願いします。

みんなの回答

回答No.1

文字は自動認識のようで設定は見当たりませんね。 https://support.google.com/drive/answer/176692?hl=ja 以下引用---------- >精度の高い結果を得るには、画像や PDF ファイルが次の要件を満たしている必要があります。 > >解像度: 解像度が高いほど精度の高い結果が得られます。ドキュメントのテキストの 1 行の高さを 10 ピクセル以上にすることをおすすめします。 ~一部略~ >言語、フォント、文字: Google の OCR エンジンは多くの種類の文字に対応しています。今後はドキュメントの言語を自動的に検出する予定です。左から右、右から左に記述する言語を認識します。さらに、中国語、日本語、韓国語などの縦書きが一般的な言語も認識します。Arial や Times New Roman などの一般的なフォントで記述されていると、より精度の高い結果が得られます。 ~以下略~ ---------- 上記の要件にも記載されていますが、(当然と言えば当然なのですが)解像度が高いことが最も重要です。誤認識したということは、その要件を満たしていないということでしょう。 私が使ってみた限りでは、以下のような印象を持っておりました。 ・日本語の場合はやはり解像度がものを言う。スキャンしてPDF化したイメージデータよりも、WORD→PDF化したものの方が圧倒的に認識率が良い。 ・縦書きはやや苦手。特に新聞のような段組みは難しい。 ・日本語でも解像度が悪いと、部分的に繁体字/簡体字に誤認識してしまう。 ・欧文(英語しかやったことはありませんが)ではかなりの認識率。 ・文書の書式/デザインはほぼ破綻する。 ただ、サイズ上の制限もあるので、限られた範囲でしか使えないですね。

関連するQ&A