• 締切済み

googleでの「日本語のページ」になる、ならないの理由は?

こんにちは。 首題の件に関して、質問いたします。わたしは、niftyにホームページを開設しています。 それで、googleでわたしのホームページのトップURLを入れて検索をしてみました。 googleでは、「ウェブ全体から検索」と「日本語のページを検索」のチェックボックスがあります。その両方で、検索を試した結果、「日本語~」の結果の方が、「ウェブ全体~」に比べて極端に少なかったのです。 ホームページのそれぞれのページは、外国語だけのページはなく、全てのページに日本語が含まれています。 また、似たような内容のページでも、「日本語~」の結果に含まれないのが多々あります。 このような現象はどのような結果で起こりうるのでしょうか? なお、それぞれのページには、下記のようなmetaタグを配置しております。 <meta name="keywords" lang="ja" content="~~~"> <meta name="classification" lang="ja" content="~~~"> <meta http-equiv="content-type" content="text/html; charset=Shift_JIS" /> <meta http-equiv="content-language" content="ja" /> わたしとしては、全てのサイト内のページを「日本語~」で検索してヒットされるようにしたいです。 どうか、よろしくお願いいたします。

みんなの回答

回答No.4

ANO.2お礼に対する補足です。 >個別のlang属性はなさっておられないのですね。 個別にlang属性を指定しないのは、既にhtmlタグにおいて、 「このページは日本語のページです(<html lang="ja">)」 と明示しているために、同ページ内では個別に明示する必要がない、と思われるからです。 ですが、たとえば英文を引用する場合には、 「このページは日本語のページですが『この引用部分に限っては、英語です』」 ということを明示するために、あえて、 <blockquote lang="en"><p>Hello !</p></blockquote> というような記述(個別の言語コード指定)を行うことはあります。 さて、 ><meta http-equiv="content-type" content="text/html; charset=Shift_JIS" /> >これのことですよね?大丈夫だと信じたいのですが、不安です。 についてですが、Shift_JIS(や、EUC-JP等)は、あくまでも、その文書がどのような「エンコード」をされた文書なのか? を明示するためであって、何語ということを明示していないと思うのですが。 あれこれ調べましたが、htmlにおけるcharsetは「そのページが何語のページであるかを明示している」ということを裏付けるリソースは見当たりませんでした。 (探し方が下手なのかもしれませんが…) たとえば、漢字もひらがなもカタカナも1字たりとも記述されていない、全文が英語のページをShift_JISでエンコードした。 これって、英語ページなんでしょうか? 日本語ページなんでしょうか? 日本語・英語、半々のときは?? 真実はGoogleにしかわからないでしょうが、Shift_JISというだけで「日本語」と解釈されるとしたら…。 そのようなアルゴリズムは…勘弁願いたいところです。 これより詳しく、信憑性に足る回答につきましては、専門家に委ねることとします。

noname#38071
質問者

お礼

buntan_bunさん、 度々のご回答、そしてとても詳しく説明していただき、本当にありがとうございます。 やはり、運営している人たちにしか分からない、外に公開していない”要素が”あって分からないですよね。 googleにサイトマップを送ってからまだ時間が経ってないせいか、相変わらずの結果です。もう少し待ってみようと思います。 本当にありがとうございました。

回答No.3

>>まさかサーチエンジンが1つだとは思ってないですよね。 >これは、一つの検索エンジン(例えばgoogleならgoogle)だけで1つという意味でしょうか? ああああごめんなさいごめんなさい。 検索エンジン(サーチエンジン)は、googleやmsn、yahooのことです。 これはgoogleが1つ、msnが1つ・・・ですね。 googleという1つの検索エンジンについてみてみます。 googleがまずウェブページの情報を集めます そして、何を集めるのかは知りませんが、集めた情報を蓄積します。 情報が多いので、1つでは収まらないです。 そこで、2つめ、3つめ・・・いくつあるのかは知りませんが。 蓄積するサーバーが1つなら、私達が検索したとき、 いつも出される情報は1つで同じはずです。 これが、2つ3つ4つとあるから、検索するたびに違う結果が出るのではないか、と思ったわけです。 日本語専用に2つ、それ以外用に10個あったとして、 私達が日本語検索をしたばあい、日本語専用サーバーのどちらかを参照することになるはずです。 全体検索をした場合、日本語専用+それ以外を混ぜて結果がでてくるとしたら、 件の減少もありえるかな、と。 言語関係なしでとりあえず集めまくったサーバーのほうに貴方の情報があって、 それを日本語専用のほうが集めていなかったら、 全体のほうが多くなるかな、と。 まぁ憶測なんですが。 こういう検索情報みたいのは企業秘密なんですよね。 だからSEOとかよくわかんないものは流行する、と…。 基本は、参照回数が多ければ多いほど、 安定して、さらに上位に検索されます。

noname#38071
質問者

お礼

-Jelly-さん、 ご回答ありがとうございます。すみません、混乱していました。少し整理がついた様に思います。 ありがとうございました。

回答No.2

もしかしたら、<html lang="ja">ではなく、<html>となっているのではないでしょうか? そうであるなら、これが原因ではないかと思われます。 少なくとも自分のサイトはlang属性を指定してあり、ご質問のような現象は発生しておりません。 また、 <meta name="keywords" lang="ja" content="~~~"> <meta name="classification" lang="ja" content="~~~"> <meta http-equiv="content-language" content="ja" /> のように、個別にlang属性も指定しておりません。 以下も参照してみてください。 http://www.kanzaki.com/docs/html/lang.html http://openlab.ring.gr.jp/k16/htmllint/explain.html#html-lang

noname#38071
質問者

お礼

buntan_bunさん、 ご回答ありがとうございます。 >>もしかしたら、<html lang="ja">ではなく、<html>となっているのではないでしょうか? まさに仰る通りのことをやっていました。これから直してみようと思います。 個別のlang属性はなさっておられないのですね。了解しました。URL先もご紹介ありがとうございました。 ありがとうございました。

回答No.1

サーチエンジン業者ではないので可能性の話ですが サーチエンジンは定期的に (どのぐらいの定期かは知らないですが、だいたい1週間2週間でしょう) ウェブサイトの収集を行い、 情報をサーバーにためていきます。 私達は、単語入力により、ためられたサーバーから検索をします。 まさかサーチエンジンが1つだとは思ってないですよね。 というかいくらなんでも1つだったらパンクする。 こっちのサーバーは貴方のページ情報を収集したが、こっちのサーバーはしていない →検索のたびに違う結果がでる と考えられるし、検索するたびに違う結果がでるというのは実際あります。 有名なサイトや参照、検索されることが多いサイトではそう変わらないでしょうが。 基本的にcharsetを宣言していれば、 日本語サイトであるとサーチエンジン側は認識しているはずです。

noname#38071
質問者

お礼

-Jelly-さん、 ありがとうございます。 >>まさかサーチエンジンが1つだとは思ってないですよね。 これは、一つの検索エンジン(例えばgoogleならgoogle)だけで1つという意味でしょうか?すみません、googleならgoogle1つの検索エンジンだけと、思っていました。複数あるとは思っていませんでした。 でもすみません、「日本語~」の検索と「ウェブ全体~」の検索両方に出てくるページのキャッシュの時間を見ても、同じなのですが、これはどういうことでしょうか?(わたしの認識が間違っています?) >>基本的にcharsetを宣言していれば、 上記は、 <meta http-equiv="content-type" content="text/html; charset=Shift_JIS" /> これのことですよね?大丈夫だと信じたいのですが、不安です。 ”確かに日本語のページである”と認識してくれるタグのようなものがあれば、教えていただきたいです。 よろしくお願いいたします。

関連するQ&A