サーチエンジンの仕組み
YAHOOやGoogleなどのサーチエンジンに関する素朴な疑問です。
1)膨大な数のホームページがキーワードで検索可能ですが、検索可能ということはデータベース化されているということですよね?このデータベース化はホームページ作成者側の依頼が多いんでしょうか、それともエンジン側の依頼が多いんでしょうか。ホームページ作成者側の依頼の場合、収録してもらうのにお金が要るんでしょうか?あとそれぞれのページが更新された時に、それらの更新もいちいちフォローされているんでしょうか?
2)無修正のアダルト写真とかその他公序良俗に反すると思われるものも結構検索で引っかかってきますが、これらをデータベース化(収録)するかどうかについて特に基準は設けられているのでしょうか?
3)膨大な量のデータベースですが、これらを記憶しているメディアはパソコンのハードディスクのようなものでしょうか、それとも別の種類のものでしょうか。あとこれらの膨大なデータベースのメディア(サーバー?)は一体どれくらいの広さをとるんでしょう。(例えばおおざっぱに八畳間一部屋分とか、ビルのワンフロアとか。)
4)例えば収録語が半角英字であって、全角英字で検索しても大抵出てきますよね。このようなある程度の誤差にも対応出来るようにデータベース化の際に工夫がなされているのでしょうか。
5)特にGoogleについてはその検索の速さが驚異的(ほんとに一瞬)ですが、巨大なデータベースでどうやったらあそこまで早い検索が出来るのか、その仕組みの一端でも素人に分かる範囲で教えて頂けないでしょうか。
どうか宜しくお願い申し上げます。