ベストアンサー

PDFのデータをテキスト化すると文字化けしてしまいます・・

2009/01/02 11:24

あけましておめでとうございます。 PDFの中のデータをテキストファイルに移行しようとしてコピペや、テキストとして保存しようとするのですが、すべての文字が、・・・・・・・・に文字化けしてしまいます。なぜこうなるのか、まったく私にはわかりません。どなたかお詳しい方、お助けください。よろしくお願いいたします。

muki1682
お礼率66% (8/12)

その他(ソフトウェア)
回答数3
ありがとう数9

みんなの回答 （3）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

violet430
ベストアンサー率36% (27472/75001)

2009/01/02 20:53 回答No.2

>また、ほかのPDFファイルは普通にコピペできるのですが、これはまったくだめです。やってみましたが文字データは無い様ですね。１バイトの空白だけがコピーされます。 JustPDF変換もやってみましたが、文字データは変換されませんでした。やさしくpdfOCRで文字認識をした結果、文字認識はされました。どうも何か仕掛けがしてあるようですね。 Justpdf編集などのpdf編集ソフトを使ってデータを調べてみないと詳細は分からないと思います。

質問者

お礼 2009/01/04 12:35

ご回答ありがとうございました。 PDFのプロパティを見ても、私には解析する知恵を持ち合わせていませんので、わかりませんでした・・・残念です。せっかくの元日のお休みのところ、時間を割いていただき本当にありがとうございました。

その他の回答 (2)

U-Seven
ベストアンサー率56% (557/986)

2009/01/03 22:38 回答No.3

うーん、私も無理でした。これは東洋経済社発行の会社四季報CD-ROMのデータですね。簡単にコピー出来るようだと出版社としては困りますので、コピーや再配布を防止するために細工がされているようです。一種の著作権保護と思って下さい。もしかしたら文字化けではなくて、ダミーで初めから・・・・・・を透明テキストとして付けてあるのかもしれません。

質問者

お礼 2009/01/04 13:04

お察しの通りです。確かにダミーを入れている可能性がありますね。 OCRで何とか認識しますのでせっせとそこから構築するほかないようです。東洋経済の了見の狭さには辟易してしまいます。競争相手が少ない弊害ですね。テキスト保存する理由は、四季報程度の解析機能じゃ不十分だから自分で解析せざるを得ないからなのに、それを拒むなんて・・という思いはあります。前よりはめんどくさくなりますがせっせとデータ作成いたします。ありがとうございました。

violet430
ベストアンサー率36% (27472/75001)

2009/01/02 14:39 回答No.1

全ての文字がjis非対応のunicode対応文字で、かつペースとしたソフトがunicodeに対応していない場合はそうなります。しかし、現実にはそういうケースは珍しいですね。何か他に原因が有るかもしれないです。どのpdfファイルでも発生するのか？そのpdfファイルを他のパソコンでコピーアンドペーストした場合はどうなるのか？もう少し情報集めをお願いします。

質問者

補足 2009/01/02 20:00

ご回答ありがとうございます。ほかのパソコンでもできないようです。また、ほかのPDFファイルは普通にコピペできるのですが、これはまったくだめです。そのファイルをアップロードいたしますので、もしよろしければ見て頂けるとありがたく存じます。（ウイルスチェックはしております） http://stoc.as.wakwak.ne.jp/cgi-bin/d.cgi?c=SorGgom915&b=sample.pdf よろしくお願い申し上げます。

PDFのデータをテキスト化すると文字化けしてしまいます・・