- ベストアンサー
技術資料の自炊 (PDF化)
- 長期に渡って蓄えた自動車修理の技術資料をPDF化する方法について教えてください。資料は5cmのファイルに10冊になっており、症状や車種での検索が困難です。
- 考えられる方法として、OCRソフトを使用して文字列検索を可能にし、スキャンデータも残すことでOCRの誤変換に対処する方法が挙げられます。ただし、資料の半分以上がFAXであるため綺麗なスキャンデータではありません。
- 資料の全てを1冊としてまとめる方法や、別のアプローチによるさらなる改善方法についても教えてください。
- みんなの回答 (4)
- 専門家の回答
質問者が選んだベストアンサー
- ベストアンサー
珍答も出ていますが、まず私がやっている方法を紹介します。 私はソースネクストの「いきなりPDF」を使っています。 http://www.sourcenext.com/product/pc/ikp/pc_ikp_000099/ このソフトは値段が安いことからもわかるように、お手軽に資料をPDF化するソフトで、画像(文字や図)の上にOCRで読み取った文字が乗りますが、編集機能がないので誤変換はそのまま、ただしADFと併用すると作業は速いです。 スキャナーはA3のADF付の中古を購入しました。 スキャナーで画像保存して下記を使うこともあります。 http://www.sourcenext.com/product/pc/ikp/pc_ikp_000834/ OCRにこだわるなら、他社の体験版をテストして変換精度のよいものを選択し、PDFにするとよいでしょう。 スキャナーは連続取り込みができるものが楽です、ドキュメントスキャナーかADF付フラッドヘッドか迷いましたが、私はADFにしました。 なお、個人が自分用に書籍や資料をスクラップして利用することは著作権法で認められており、勝手に個人が行う分には何ら問題ないです。 逆に会社が内部資料とするには著作権問題が出てきます。
その他の回答 (3)
ちなみに http://www.dennobaio.jp/shopbrand/035/010/Y 上記ショップで大量スキャン用のスキャナーが格安で売っており、かなり迷いましたがA3が欲しかったのでパスしました。 もともと業務用なのでかなり速いと予想しますが、中古だけに程度に関しては買ってみないと何とも言えません。
お礼
複合機にオートフィーダーが付いているので、まずは それでスタートしてみます。かなり古い資料もあるので、紙詰まりなども心配ですが... 著作権などについては、外部へ出なければ問題ないようです
- hayasitti
- ベストアンサー率69% (229/331)
>1. どんなソフトが最適か? これはNo2の方が書かれている通り、OCRの体験版を試してみるのが一番です。 OCRはどうしても認識ミスを避けられないので、実際に試してみて認識率を試してみるべきでしょう。 (特に図表の多い添付の画像では、どういうファイルが出来上がるかも確認するためにも一度試してみるべきです。) 添付の画像から、文字は印字されたもののようで、手書きではないようですから、OCRにはかけやすいと思います。 >2. 全ての資料を対象に、検索できる保存方法 (例 全てを1冊としてまとめる...など) すべてを1ファイルにまとめられれば簡単ですが、ファイル容量的にどうなることやら…。 (不可能とは言いませんけど相当な容量になるのは間違いないでしょう。) (ちなみに今自分の手元にある130ページほどの論文のPDFファイルで3.45MBくらい。) (ただグラフ部分もありますが文章部分が圧倒的に多いため、添付の画像では図示が多いため容量が大きくなるんじゃないかと思います。) 適当な区切り(たとえば発行年度ごとなど)をつけてファイルを分けるのが現実的でしょう。 肝心の検索方法としては、複数のPDFファイルに対して横断的に検索するAdobe Readerの機能を利用できればコスト的にも労力的にも安上がりでしょう。 http://helpx.adobe.com/jp/acrobat/kb/3320.html 文書スキャナについては専用の連続スキャナか、もしくはオフィスにある複合機が新しければそれについているスキャナ機能を利用する方法があるでしょう。 枚数が多いので、オートフィーダは必須です。(1枚1枚やっていたら途方に暮れてしまいますからね。) 専用連続スキャナは買うと高いですが、自炊支援業者で貸し出してくれるところもあるらしいので、それを利用するのも手です。 >3. まったく違うやり方で、もっと良い方法 身もふたもない話ですけど、スキャン作業に関してはルーチンワークになるので、専門業者に投げてしまうのも手です。 専門業者なので十分な設備をもっているはずですから、ある程度まとまった量があり、経費に折り合いがつくならば、こちらの方が手間暇がかからないという点で楽です。 例→http://campaign.otsuka-shokai.co.jp/scan-lp/ ただ、技術文書はおそらくこれから先も出てくるものですから、それらのことを考えて自分たちの手で処理方法を確立しておくことは重要です。 そのため前述したことを検討しておくのは意味あることだと思います。 専門業者はまとまった量を頼まないとと総じて価格が割高になりがちですからね。 以上、思いついたことを書きましたが、参考まで。
お礼
読取革命とアクロバットを使用しました。この二つなら読取革命の方が、うちの文章との相性が良さそうです。 いきなりPDF...は、使用できませんが安価なので購入する予定です。 複数のPDFを対象に検索する機能は嬉しいですね。おっしゃる通り一つのファイルにしてしまうと、開くまでにとても長い時間がかかりそうです。 貴重なアドバイスを頂きありがとうございました。
補足
↓ ×使用 ○試用 でした
- merciusako
- ベストアンサー率37% (909/2438)
ご質問の主旨とは外れます。 とても良い考えだと思いますが、その作業は個人的に行おうとしているのでしょうか。 それとも会社として取り組むのでしょうか。 まずそこのところが問題です。 通常、そのような技術資料は、勝手に個人で何かをするということは認められていないはずだからです。 もし自炊をしたいのであれば、会社にお伺いを立てなければなりません。 勝手にやれば機密漏洩に問われる場合があるからです。 そのあたりはクリアになっているでしょうか。 自炊の効率的な方法は他の回答者さんが示してくださると思います。 ちょっと気になりました。 クリアになっているのであればスルーしてください。 スイマセン。
お礼
紹介していただいた、いきなりPDF for 自炊を見させていただきました。機能や価格面でかなり理想に近いものだと思います。 透明テキストの存在を知らなかったので、紹介されるまでこんな方法は考えもつきませんでした。 問題は変換精度ですね。 とても的確なアドバイスを頂きありがとうございます。