• ベストアンサー

Office文書などの検索方法

社内の文書サーバ及びローカルのHDD上にあるOffice文書(MSのWord、Excel、PowerPoint)やメール、PDF文書などを検索するAPを作成したいと考えていますが、これらのバイナリ形式のファイルの取扱方法について解説しているサイトや、書籍をご存知でしたら教えて下さい。 勉強がてらJavaで実装しろと、軽く上司に煽られたのですが、情報収集の段階で躓きかけております。

質問者が選んだベストアンサー

  • ベストアンサー
  • neKo_deux
  • ベストアンサー率44% (5541/12319)
回答No.1

Wordの.docファイルのフォーマットなど、MSからは公式には公開されていなかったハズ。 有志が解析したフォーマットなどはこういう所にまとめられています。 The Programmer's File Format Collection http://www.wotsit.org/ -- 思いつく一番簡単な方法だと、 EB series support page http://www31.ocn.ne.jp/~h_ishida/ で公開されている、 xdoc2txt 1.14 を利用させてもらう方法ですね。 > 作成したいと考えていますが、 こちらを組み込んだアプリケーションなんかも紹介されていますし…。

参考URL:
http://www31.ocn.ne.jp/~h_ishida/
kokemomo2005
質問者

お礼

neKo_deuxさん、素早い回答ありがとうございます。 xdoc2txt見てきました。凄いですね、まさに望み通りの機能を持っていました。 ご教示感謝いたします。