締切済み

透明テキスト付きPDFへの変換ソフトを紹介して

2011/02/23 08:46

複数の英語の書籍を、画像スキャナーで読み込んで、PDFに変換してファイル化しています。いずれもページ数は５００枚から７００枚程度です。これを透明テキスト付きPDFにして、Acorbatで検索できるようにしたいと考えています。そこでこれらの画像PDFファイルを、OCRでテキスト化し、その上で各ページに透明テキストを埋め込んでくれるソフトを紹介してくださいませんか。特にOCRに日本語がなくても結構です（もちろんあればそれにこしたことはありませんが、限定しません）。また価格はできれば安いにこしたことはありませんが、特にこれも限定しません。なおソフトよりもハードを買った方が安いとのご提案があれば、そのご提案も歓迎したいと思います。私は現在日本国外におり、情報に疎い状況にあります。ただ申し訳ないのですが、いくつか条件があります。１）元のPDFファイルはそのままで、透明テキストを付加したいのです。　PDFファイルは、深い階層までしおりを付けています。これを崩したくありません。　また以前持っていたe.Typistは、元のPDFをページごとにPDFファイルとしてしまうため、再度結合（組み立て直しを）せねばなりませんでした。　元のPDFファイルのページ数が500枚以上あるため、できるだけ面倒な操作をしたくないのです。２）PDFのバージョンは、古いPDFで（できればAcrobat6で）保存したい。３）ソフトウエアの場合、できればダウンロード販売のあるものが良い。以上、よろしくお願いいたします。

cobaco
お礼率52% (10/19)

その他(ソフトウェア)
回答数3
ありがとう数0

みんなの回答 （3）
専門家の回答

みんなの回答

Hoyat
ベストアンサー率52% (4897/9300)

2011/02/26 13:01 回答No.3

#1です。 Acrobatを奨めているのは「最終的にPDF化される」からですし「ダウンロード販売がある」からです。 https://store3.adobe.com/cfusion/store/html/index.cfm?store=OLS-JP&event=displayProduct&categoryPath=/Applications/AcrobatPro&distributionMethod=FULL >キャプチャーの機械等を、資機材と一緒に送ってもらうことも考えました OCRはハードウェア依存ではありません。ソフトウェア依存です。またスキャナーなどでPDF化するにあたっては必ずAcrobatが使用されています。（定評のある富士通のScanSnapもAcrobatがバンドルされています） >白黒、解像度300dpi、PDFバージョンは不明だが古いと思われるデータの詳細がわかりませんから透明テキストが何故Acrobat6日本語版で「機能しない」かは不明ですが、単純に下位互換保存していないからではないかと思います。つまり古いデータなのではなく逆に新しい（バージョンの）データだからだと思います（古いデータなら機能しますので）。因みに現状でAcrobat6は4世代前のバージョンになってしまいますので、恐らくは「バージョンが古いから機能が足りない」というオチだと思います。 Adobe Readerは容易にアップグレードできます（無償でダウンロード＆インストールできる）から、データ制作者が下位互換を意識されていないのでは？

kokubosino
ベストアンサー率19% (697/3530)

2011/02/23 13:32 回答No.2

OCRの識字率は８０％なんで全ての文字を確認して修正しなければいけません。５００ページもあるんだったら、そっちのほーが面倒で、後の作業というのは微々たる物ですよ Adobe社のAcrobatを買いましょう。

質問者

補足 2011/02/26 04:01

早速ありがとうございます。　日本のように簡単にAcrobatが買えればよいのですが。また下記に書かせていただいたように、必ずしも最新のAcrobatで対応できるとも限らない点が、心配なところです。　ところで英文も認識率８０％なのでしょうか。１０年以上も前のことですが、日本のOCRは漢字認識の技術と英文辞書の高効率化から、比較的金額の高くないOCRソフトであっても、英文はほぼ１００％に近い（特殊な文字を除いて、一般の書籍の文字はほぼ間違いなく認識される）と、当時の技術屋が言っていたことを覚えています。　ご教授をよろしくお願いします。

Hoyat
ベストアンサー率52% (4897/9300)

2011/02/23 09:14 回答No.1

そもそもpdfはAdobe Acrobatが本家なんで、編集もAcrobatでやるのが一番柔軟性があります。で、確か、透明テキストの付与はAcrobat6で出来るはずですが？ OCR機能も付いていたはずですし・・・（既に自分のところには無いバージョンなんで確認できませんが） ※Acrobatは新しいバージョンでも、旧バージョンとの互換性は付与できますので新しいもの（現バージョンはX）でも出来る事ではありますけどね。

質問者

補足 2011/02/26 03:49

早速ありがとうございます。　こちらはODA各国の様々な仕様が混乱しており、こちらで作成したキャプチャーから作成するPDFは、たぶん仕様の混乱のせいだと思うのですが、私の持っているAcrobat6.06日本語版では透明テキストが機能しません。Acrobatの求める仕様を満足している（白黒、解像度300dpi、PDFバージョンは不明だが古いと思われる）はずなのですが。　たとえ原因が解明したところで、こちらはそれに対処できる環境ではないため、Acrobatはあきらめらめて、OCRソフトを考えたのです。Acrobatは最新版を購入して試してみることも考えましたが、最新版を購入できる環境にないこと、また購入してダメだった場合、価格的に他の業務を圧迫する（こちらの人件費を考えると莫大な予算なのです）こと、さらにダウンロードで簡単には買いにくい、これらがAcrobatをあきらめた主な原因なのです。OCRならば、Acorbatのバージョンにあまり左右されないのではないかと考えました。まぁ同じ事なのかも知れませんが。またOCR等のソフトでの対応が難しいのであれば、キャプチャーの機械等を、資機材と一緒に送ってもらうことも考えました。これならばAcrobatに依存せずに、書籍のPDF化ができます。ただこれだと、１ヶ月以上待たねばならなくなり、それもまた厳しいのです。よろしくお願いします。（ネットに接続するため時間がかかる場合があり、返事が遅くなります。）

透明テキスト付きPDFへの変換ソフトを紹介して

みんなの回答

補足 2011/02/26 04:01

補足 2011/02/26 03:49

関連するQ&A

「劣化なし」で透明テキスト付きPDFを作成したい

ＰＤＦ作成ソフト

PDFからテキストだけ抜き出すには

PDFファイルを一括して透明テキスト付PDFファイルにするソフトはありませんか？

pdfファイルをテキストファイルに変換できるソフト

PDFをワードに変換

PDFからエクセルへの変換についてフリーソフト等

PDFの変換ソフトについて

完全認識率のスキャナソフト、OCRソフトは？

PDF内の画像文字からテキストを抽出できるOCR

最新のＯＣＲソフトを紹介してほしいのですが。

PDFをテキストデータに直ちに変換できなくする方法

PDFを画像ファイルに変換できるソフト

OCRで正確にテキストに変換できないのは・・・

PDFのしおりを簡単に作成したいのですが・・。

ラベル名簿ＰＤＦのテキスト化　お勧めＯＣＲソフトは

ＰＤＦからの変換

PDFファイル中のテキストデータを簡単に削除する方法

画像とテキストが混在したPDFファイルをOCR認識させる方法

PDFファイルをWordかExcelに変換したい。

注目のQ&A

カテゴリ

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

専門家に質問してみよう

透明テキスト付きPDFへの変換ソフトを紹介して

みんなの回答

補足 2011/02/26 04:01

補足 2011/02/26 03:49

関連するQ&A

「劣化なし」で透明テキスト付きPDFを作成したい

ＰＤＦ作成ソフト

PDFからテキストだけ抜き出すには

PDFファイルを一括して透明テキスト付PDFファイルにするソフトはありませんか？

pdfファイルをテキストファイルに変換できるソフト

PDFをワードに変換

PDFからエクセルへの変換についてフリーソフト等

PDFの変換ソフトについて

完全認識率のスキャナソフト、OCRソフトは？

PDF内の画像文字からテキストを抽出できるOCR

最新のＯＣＲソフトを紹介してほしいのですが。

PDFをテキストデータに直ちに変換できなくする方法

PDFを画像ファイルに変換できるソフト

OCRで正確にテキストに変換できないのは・・・

PDFのしおりを簡単に作成したいのですが・・。

ラベル名簿ＰＤＦのテキスト化 お勧めＯＣＲソフトは

ＰＤＦからの変換

PDFファイル中のテキストデータを簡単に削除する方法

画像とテキストが混在したPDFファイルをOCR認識させる方法

PDFファイルをWordかExcelに変換したい。

注目のQ&A

カテゴリ

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

専門家に質問してみよう

ラベル名簿ＰＤＦのテキスト化　お勧めＯＣＲソフトは