- ベストアンサー
検索ロボットが拾ってゆく形式は?
検索サイトのロボットが定期的に巡回して、サイトを拾って(という表現があっているかは分かりませんが…)ゆく、と聞きますが、そういったロボットが収集してゆくのはhtml/htm形式のものだけなのでしょうか。 例えば、サイト内に「申込書はこちらからダウンロードしてください」等で、エクセルの表にリンクしている場合がありますよね。このエクセルの表なども巡回のロボットに収集されるのですか。 ご存知の方教えてください。よろしくお願いします。
- みんなの回答 (3)
- 専門家の回答
質問者が選んだベストアンサー
検索ロボットは、リンクをたどってページを拾ってゆきます。そのサイトの全ての ファイルが見えているわけではありません。 検索ロボットは、検索のためにファイルを拾ってゆくわけですから、その内容が 理解できないファイルは、リンクが張ってあっても読み飛ばします。 ですから、エクセルの表が理解できるロボットがあれば、それも収集の対象にする のですが、まだ、そういうロボットを私は知りませんが、技術的には可能です。 No.1 の方が書かれているとおり、Google では PDF ファイルも検索の対象に なっていますが、それは、Google の検索ロボットが PDF のファイルの内容も 理解できるようになっているからです。 また、CGI のように動的なページも検索対象として引っかかるケースがあります。 先に書いたように、ロボットはリンクをたどります。なので、CGI の出力を リンク先として記載しているページがあれば、ロボットはそれを対象にします。 その CGI の出力は html なので、ロボットは理解可能ですから。 試しに、"oshiete1 a-kuma" をキーに検索をしてみました(→参考URL)。 PHP の動的な出力のページでも引っかかりますよね。
その他の回答 (2)
- sesame
- ベストアンサー率49% (1127/2292)
「HTML形式だけではありませんがエクセルの表はダメです」という答えになります。 巡回ロボットが拾えるのは、基本的に ・静的なドキュメントで ・テキスト形式のファイル です。 したがってCGIやSSI、PHPなどのサーバサイドプログラムでそのつど動的に生成されるファイル(たとえばこの教えて!gooのような)は検索に引っかかりませんし、 エクセルの.xlsファイルのようにバイナリエンコードされたファイルも検索できません。 その一方で、HTMLではない素のテキストファイルが置いてあると検索に引っかかります。 .txtや.csvなど、拡張子にかかわらずASCIIテキストで記述されているファイルは引っかかるようです。
お礼
早速のお返事ありがとうございます。 ロボットが拾う/拾わないファイルの違いが、(ほんの初歩かもしれませんが) うっすらと分かったように思います。本当に初心者で今まで何も知らなかった のでとてもありがたいです。
- coolguys
- ベストアンサー率18% (351/1917)
実際に自分で色々検索してみると分かると王のですが、 htmlだけではなく、pdfファイルなんかも検索に引っかかっていますね。 ただ、excelファイルと言うのは見たこと無いです。 圧縮ファイルなどもですが。 ダウンロードしてくださいの場合は、圧縮ファイルにしてみてはどうでしょうか?
お礼
早速のお返事ありがとうございます。 検索にかかるのはhtml形式だけでないというのは初めて知りました。 勉強になりました。 今まで、解凍は何度もしたことがあるのですが、圧縮はまだ やってみたことがありません。これを機に挑戦してみたいと思います。
お礼
早速の解答感謝いたします。 「技術的には可能だが、今のところそういったロボットは無いと思う」という ことですね。大変よく分かりました。 私的な会の名簿をエクセルで作って、リンクしていいものかどうか迷っていた為に 質問させていただいたので、このような答えで安心しました。 どうもありがとうございました。