• ベストアンサー

PDFのデータをテキスト化すると文字化けしてしまいます・・

あけましておめでとうございます。 PDFの中のデータをテキストファイルに移行しようとしてコピペや、テキストとして保存しようとするのですが、すべての文字が、 ・・・・・・・・に文字化けしてしまいます。 なぜこうなるのか、まったく私にはわかりません。 どなたかお詳しい方、お助けください。 よろしくお願いいたします。

質問者が選んだベストアンサー

  • ベストアンサー
  • violet430
  • ベストアンサー率36% (27472/75001)
回答No.2

>また、ほかのPDFファイルは普通にコピペできるのですが、これはまったくだめです。 やってみましたが文字データは無い様ですね。1バイトの空白だけがコピーされます。 JustPDF変換もやってみましたが、文字データは変換されませんでした。 やさしくpdfOCRで文字認識をした結果、文字認識はされました。 どうも何か仕掛けがしてあるようですね。 Justpdf編集などのpdf編集ソフトを使ってデータを調べてみないと詳細は分からないと思います。

muki1682
質問者

お礼

ご回答ありがとうございました。 PDFのプロパティを見ても、私には解析する知恵を持ち合わせていませんので、わかりませんでした・・・ 残念です。 せっかくの元日のお休みのところ、時間を割いていただき本当にありがとうございました。

その他の回答 (2)

  • U-Seven
  • ベストアンサー率56% (557/986)
回答No.3

うーん、私も無理でした。 これは東洋経済社発行の会社四季報CD-ROMのデータですね。 簡単にコピー出来るようだと出版社としては困りますので、コピーや再配布を防止するために細工がされているようです。 一種の著作権保護と思って下さい。 もしかしたら文字化けではなくて、ダミーで初めから・・・・・・を透明テキストとして付けてあるのかもしれません。

muki1682
質問者

お礼

お察しの通りです。 確かにダミーを入れている可能性がありますね。 OCRで何とか認識しますのでせっせとそこから構築するほかないようです。 東洋経済の了見の狭さには辟易してしまいます。 競争相手が少ない弊害ですね。 テキスト保存する理由は、四季報程度の解析機能じゃ不十分だから自分で解析せざるを得ないからなのに、それを拒むなんて・・という思いはあります。 前よりはめんどくさくなりますがせっせとデータ作成いたします。 ありがとうございました。

  • violet430
  • ベストアンサー率36% (27472/75001)
回答No.1

全ての文字がjis非対応のunicode対応文字で、かつペースとしたソフトがunicodeに対応していない場合はそうなります。 しかし、現実にはそういうケースは珍しいですね。 何か他に原因が有るかもしれないです。 どのpdfファイルでも発生するのか? そのpdfファイルを他のパソコンでコピーアンドペーストした場合はどうなるのか? もう少し情報集めをお願いします。

muki1682
質問者

補足

ご回答ありがとうございます。 ほかのパソコンでもできないようです。 また、ほかのPDFファイルは普通にコピペできるのですが、これはまったくだめです。 そのファイルをアップロードいたしますので、もしよろしければ見て頂けるとありがたく存じます。(ウイルスチェックはしております) http://stoc.as.wakwak.ne.jp/cgi-bin/d.cgi?c=SorGgom915&b=sample.pdf よろしくお願い申し上げます。

関連するQ&A