- 締切済み
Googleの文書検索システムの仕組みは?
GoogleデスクトップなどはHTMLの他にもOfficeアプリのファイルなどの検索も行えるようになっています。 インストール時にHDDを検索してインデックスを作成する際に、ファイルの中の文書も解析してインデックスに登録しますがそのファイルの解析の仕組みはどのようになっているのでしょうか? WindowsのAPIを使用して文書の中身を吸いだすなどの方法で解析しているのかな?と思いましたがご存知の方いらっしゃらないでしょうか?
- みんなの回答 (2)
- 専門家の回答
みんなの回答
- athanasius
- ベストアンサー率37% (361/964)
回答No.2
google って linux のクラスター じゃなかったっけ? linux で office の 文書をテキストか何かに変換するものでもあるのでは? 少なくとも Linux の Namazu はそれでしたが
- todo36
- ベストアンサー率58% (728/1234)
回答No.1
OfficeAPIかも
質問者
お礼
ありがとうございます。 先ほど参考に全文検索ソフトのNamazuのソースを少し見ましたがPerlでtodo36さんが教えてくれたリンクのOfficeのAPI(OLE)を呼び出しているようでした。
お礼
どうやら OpenOffice.org API というものもあるようですね。 http://openoffice.s16.xrea.com:8080/pukiwiki/pukiwiki.php?%5B%5BOpenOffice.org%B3%AB%C8%AF%A5%AC%A5%A4%A5%C9%5D%5D