- ベストアンサー
OCRソフトでPDF形式の表を読み込みしたいです
複合機のスキャナー機能を使い、ワードで作った用紙をパソコンにPDF形式でデータ(文字と表)でおくりました。そしてOCRソフトでワード形式に変換しましたが表がうまく読み取れていません。(文字はだいたい読み取れました) ちなみにワード2007を使用しています 1、OCRソフトで表を読み込むのは難しいのですか? 2、OCRソフト以外に表を読み取る方法はありますか?あったら教えてください。 お手数おかけしますが回答よろしくお願いします
- みんなの回答 (3)
- 専門家の回答
質問者が選んだベストアンサー
OCRではなく、そのままテキストとしてコピーして、適当なテキストエディタでCSVにしてからエクセルなどで読取ります。 [例] ⇒履歴書・職務経歴書のサンプル( http://www.workport.co.jp/template/dl.html ) の卒業年早見表のPDFですと、最初の部分をテキストエディタにコピーすると 昭和 31 年 昭和 32 年 昭和 33 年 昭和 34 年 昭和 35 年 昭和 36 年 ・・・【以下略】・・・ となりますから、 \n([H,\d]{1}\d)\n ⇒ \1, と言う風に正規表現をつかってCSVに変更し細かい調整すると ,,生まれた年,,,,,,,,, ,,昭和31年,昭和32年,昭和33年,昭和34年,昭和35年,昭和36年,昭和37年,昭和38年,昭和39年,昭和40年 小学校,卒業3月,44,45,46,47,48,49,50,51,52,53 中学校,卒業3月,47,48,49,50,51,52,53,54,55,56 高等学校,入学4月,47,48,49,50,51,52,53,54,55,56 ,卒業3月,50,51,52,53,54,55,56,57,58,59 大学,入学4月,50,51,52,53,54,55,56,57,58,59 ,短卒3月,52,53,54,55,56,57,58,59,60,61 ,卒業3月,54,55,56,57,58,59,60,61,62,63 になります。これを.csvとして保存して、エクセルで開く。開いてご覧なさい(^^) ★PDFは、あくまで印刷物です。 元々、UNIXなどのネットワーク上のプリンターで印刷するpostscriptプリンターというコンピューター内臓のプリンターがあり、各コンピューターはpostscriptというテキストデータをプリンターに送るだけで、印刷できてました。Windosのように一台ごとにドライバーをインストールしなくてすむ。このpostscriptを可視化したものがPDFですので・・
その他の回答 (2)
- koko88okok
- ベストアンサー率58% (3839/6543)
> 1、OCRソフトで表を読み込むのは難しいのですか? 単純な表は問題ありませんが、複雑な表や細い罫線の表では困難です。 OCRソフトは、スキャナで読み取った図形を解析し、文字として認識して出力するためのソフトなので、スキャニングの条件(濃淡)によっても差異が発生します。 むしろ、原稿の表の罫線の位置をスケールで読み取り、「表のプロパティ」で「行の高さ」「列の幅」などを指定した方が簡単に短時間で再現できます。 > 2、OCRソフト以外に表を読み取る方法はありますか?あったら教えてください。 残念ながら知りません。
お礼
回答ありがとうございます。
- bunjii
- ベストアンサー率43% (3589/8249)
>1、OCRソフトで表を読み込むのは難しいのですか? 紙データしかない場合に利用しますが正しい読み取りは期待できません。 >2、OCRソフト以外に表を読み取る方法はありますか? 他には良いソフトを知りません。 ワードで作成したデータを態々印刷してスキャナーでPDFファイルに変換するのは徳作ではではありません。 更に、それをスキャナーでワード形式に変換するのは無駄の上塗りです。 ワードで作成した文書をそのまま送れば良いのではないでしょうか?
お礼
回答ありがとうございます。
お礼
回答ありがとうございます。