- 締切済み
透明テキスト付きPDFへの変換ソフトを紹介して
複数の英語の書籍を、画像スキャナーで読み込んで、PDFに変換してファイル化しています。いずれもページ数は500枚から700枚程度です。 これを透明テキスト付きPDFにして、Acorbatで検索できるようにしたいと考えています。 そこでこれらの画像PDFファイルを、OCRでテキスト化し、その上で各ページに透明テキストを埋め込んでくれるソフトを紹介してくださいませんか。 特にOCRに日本語がなくても結構です(もちろんあればそれにこしたことはありませんが、限定しません)。 また価格はできれば安いにこしたことはありませんが、特にこれも限定しません。なおソフトよりもハードを買った方が安いとのご提案があれば、そのご提案も歓迎したいと思います。 私は現在日本国外におり、情報に疎い状況にあります。 ただ申し訳ないのですが、いくつか条件があります。 1)元のPDFファイルはそのままで、透明テキストを付加したいのです。 PDFファイルは、深い階層までしおりを付けています。これを崩したくありません。 また以前持っていたe.Typistは、元のPDFをページごとにPDFファイルとしてしまうため、再度結合(組み立て直しを)せねばなりませんでした。 元のPDFファイルのページ数が500枚以上あるため、できるだけ面倒な操作をしたくないのです。 2)PDFのバージョンは、古いPDFで(できればAcrobat6で)保存したい。 3)ソフトウエアの場合、できればダウンロード販売のあるものが良い。 以上、よろしくお願いいたします。
- みんなの回答 (3)
- 専門家の回答
みんなの回答
- Hoyat
- ベストアンサー率52% (4897/9300)
#1です。 Acrobatを奨めているのは「最終的にPDF化される」からですし「ダウンロード販売がある」からです。 https://store3.adobe.com/cfusion/store/html/index.cfm?store=OLS-JP&event=displayProduct&categoryPath=/Applications/AcrobatPro&distributionMethod=FULL >キャプチャーの機械等を、資機材と一緒に送ってもらうことも考えました OCRはハードウェア依存ではありません。ソフトウェア依存です。 またスキャナーなどでPDF化するにあたっては必ずAcrobatが使用されています。 (定評のある富士通のScanSnapもAcrobatがバンドルされています) >白黒、解像度300dpi、PDFバージョンは不明だが古いと思われる データの詳細がわかりませんから透明テキストが何故Acrobat6日本語版で「機能しない」かは不明ですが、単純に下位互換保存していないからではないかと思います。つまり古いデータなのではなく逆に新しい(バージョンの)データだからだと思います(古いデータなら機能しますので)。 因みに現状でAcrobat6は4世代前のバージョンになってしまいますので、恐らくは「バージョンが古いから機能が足りない」というオチだと思います。 Adobe Readerは容易にアップグレードできます(無償でダウンロード&インストールできる)から、データ制作者が下位互換を意識されていないのでは?
- kokubosino
- ベストアンサー率19% (697/3530)
OCRの識字率は80%なんで全ての文字を確認して修正しなければいけません。 500ページもあるんだったら、そっちのほーが面倒で、後の作業というのは微々たる物ですよ Adobe社のAcrobatを買いましょう。
- Hoyat
- ベストアンサー率52% (4897/9300)
そもそもpdfはAdobe Acrobatが本家なんで、編集もAcrobatでやるのが一番柔軟性があります。 で、確か、透明テキストの付与はAcrobat6で出来るはずですが? OCR機能も付いていたはずですし・・・(既に自分のところには無いバージョンなんで確認できませんが) ※Acrobatは新しいバージョンでも、旧バージョンとの互換性は付与できますので新しいもの(現バージョンはX)でも出来る事ではありますけどね。
補足
早速ありがとうございます。 こちらはODA各国の様々な仕様が混乱しており、こちらで作成したキャプチャーから作成するPDFは、たぶん仕様の混乱のせいだと思うのですが、私の持っているAcrobat6.06日本語版では透明テキストが機能しません。Acrobatの求める仕様を満足している(白黒、解像度300dpi、PDFバージョンは不明だが古いと思われる)はずなのですが。 たとえ原因が解明したところで、こちらはそれに対処できる環境ではないため、Acrobatはあきらめらめて、OCRソフトを考えたのです。Acrobatは最新版を購入して試してみることも考えましたが、最新版を購入できる環境にないこと、また購入してダメだった場合、価格的に他の業務を圧迫する(こちらの人件費を考えると莫大な予算なのです)こと、さらにダウンロードで簡単には買いにくい、これらがAcrobatをあきらめた主な原因なのです。OCRならば、Acorbatのバージョンにあまり左右されないのではないかと考えました。まぁ同じ事なのかも知れませんが。 またOCR等のソフトでの対応が難しいのであれば、キャプチャーの機械等を、資機材と一緒に送ってもらうことも考えました。これならばAcrobatに依存せずに、書籍のPDF化ができます。ただこれだと、1ヶ月以上待たねばならなくなり、それもまた厳しいのです。 よろしくお願いします。 (ネットに接続するため時間がかかる場合があり、返事が遅くなります。)
補足
早速ありがとうございます。 日本のように簡単にAcrobatが買えればよいのですが。また下記に書かせていただいたように、必ずしも最新のAcrobatで対応できるとも限らない点が、心配なところです。 ところで英文も認識率80%なのでしょうか。10年以上も前のことですが、日本のOCRは漢字認識の技術と英文辞書の高効率化から、比較的金額の高くないOCRソフトであっても、英文はほぼ100%に近い(特殊な文字を除いて、一般の書籍の文字はほぼ間違いなく認識される)と、当時の技術屋が言っていたことを覚えています。 ご教授をよろしくお願いします。