• 締切済み

Googleの文書検索システムの仕組みは?

GoogleデスクトップなどはHTMLの他にもOfficeアプリのファイルなどの検索も行えるようになっています。 インストール時にHDDを検索してインデックスを作成する際に、ファイルの中の文書も解析してインデックスに登録しますがそのファイルの解析の仕組みはどのようになっているのでしょうか? WindowsのAPIを使用して文書の中身を吸いだすなどの方法で解析しているのかな?と思いましたがご存知の方いらっしゃらないでしょうか?

みんなの回答

回答No.2

google って linux のクラスター じゃなかったっけ? linux で office の 文書をテキストか何かに変換するものでもあるのでは? 少なくとも Linux の Namazu はそれでしたが

tenchi2006
質問者

お礼

  • todo36
  • ベストアンサー率58% (728/1234)
回答No.1

OfficeAPIかも

参考URL:
http://support.microsoft.com/Default.aspx?id=840817
tenchi2006
質問者

お礼

ありがとうございます。 先ほど参考に全文検索ソフトのNamazuのソースを少し見ましたがPerlでtodo36さんが教えてくれたリンクのOfficeのAPI(OLE)を呼び出しているようでした。

関連するQ&A