• 締切済み

大量のpdfデータをエクセルで集計したい

ある定型の書式で存在するPDFの情報が大量にあり、これをエクセル上に一覧表形式で落とし込みたいのですが、最短の時間、効率的に作業できる方法をどなたかご存じないでしょうか? 私が思いついた方法としては、おそらく、PDFのデータはOCR変換できると思いますで、テキストデータ化します。そのあと、エクセルに読み込むのができることは知っているのですが、単に読み込んだだけだと、一覧表にならないため、何かデータベース関数を用いて、PDFデータ一枚につきエクセル一行として整理し直したいのですが、良い手法はありますでしょうか?

みんなの回答

  • Prome_Lin
  • ベストアンサー率42% (201/470)
回答No.2

スキャンして作成したpdfデータですと、かなり難しいような・・・ 元が「Excel」、「Word」、「InDesign」、「Illustrator」のようなソフトで作られたファイルをpdf化したのなら、「Excel」形式に書き出して、うまく行けば、表のセルの位置関係がすべて同じで「Excel」に書き出せれば、データベース化もできますが、先日、私、仕事で「InDesign」のデータをpdf化した、すべて同じ形の表を「Excel」形式に変換すると、かなりセルの位置関係がおかしくなってしまい、大量の手作業を必要としました。 手作業で、プログラムで判断できる程度まで持って行ってから、プログラムで必要な文字を次から次へと抜き出していったのですが、1日仕事になりました(全300ページぐらい)。 見た目は、全く同じ形の定型の表なのに、Acrobat DC Proで「Excel」形式に書き出して、そのままでは使い物にならなかったので、それなりにショックでした。 とりあえずは、OCRを使って、いくつかを「pdf」→「Excel」にしてみて、運良くきれいにいけば、あとは、「Excel」の表なのですから、データベース化は可能かと思います。 OCRを使っていくつか試して、うまくいかなかったら、かなりの手作業を必要とするのを覚悟してください。 なお、「OCR」作業も自動化されたいのなら、「OCR」ソフトが対応しているかどうかによると思います。

  • catpow
  • ベストアンサー率24% (620/2527)
回答No.1

>>PDFのデータはOCR変換できると思いますで、テキストデータ化します。 PDFデータはOCR変換してテキストデータするとき、文字の誤認識が発生します。 ですので、元のPDFと付き合わせて、テキストの修正作業をしないといけません。 なかなか大変です。 有償でこの作業を行ってくれる業者さんもいらっしゃるようですよ。 >>単に読み込んだだけだと、一覧表にならないため、何かデータベース関数を用いて、PDFデータ一枚につきエクセル一行として整理し直したい そのようなデータベース関数はないでしょう。 >>良い手法はありますでしょうか? 1)1つのPDFをまともにエクセルに取り込む手順を試行錯誤しながら見つける。 2)その手順をVBAとかRuby,PerlあるいはC#といったプログラム言語でプログラム化する。 ってことになるのでは?もし2番目のプログラム化が自分でできないなら、誰か友人とか業者にお願いして作ってもらうことになるでしょうね。

関連するQ&A