締切済み

googleでの「日本語のページ」になる、ならないの理由は？

2007/05/16 09:25

こんにちは。首題の件に関して、質問いたします。わたしは、niftyにホームページを開設しています。それで、googleでわたしのホームページのトップURLを入れて検索をしてみました。 googleでは、「ウェブ全体から検索」と「日本語のページを検索」のチェックボックスがあります。その両方で、検索を試した結果、「日本語～」の結果の方が、「ウェブ全体～」に比べて極端に少なかったのです。ホームページのそれぞれのページは、外国語だけのページはなく、全てのページに日本語が含まれています。また、似たような内容のページでも、「日本語～」の結果に含まれないのが多々あります。このような現象はどのような結果で起こりうるのでしょうか？なお、それぞれのページには、下記のようなmetaタグを配置しております。 <meta name="keywords" lang="ja" content="～～～"> <meta name="classification" lang="ja" content="～～～"> <meta http-equiv="content-type" content="text/html; charset=Shift_JIS" /> <meta http-equiv="content-language" content="ja" /> わたしとしては、全てのサイト内のページを「日本語～」で検索してヒットされるようにしたいです。どうか、よろしくお願いいたします。

noname#38071

HTML
回答数4
ありがとう数6

みんなの回答 （4）
専門家の回答

みんなの回答

buntan_bun
ベストアンサー率62% (32/51)

2007/05/18 15:17 回答No.4

ANO.2お礼に対する補足です。 >個別のlang属性はなさっておられないのですね。個別にlang属性を指定しないのは、既にhtmlタグにおいて、「このページは日本語のページです（<html lang="ja">）」と明示しているために、同ページ内では個別に明示する必要がない、と思われるからです。ですが、たとえば英文を引用する場合には、「このページは日本語のページですが『この引用部分に限っては、英語です』」ということを明示するために、あえて、 <blockquote lang="en"><p>Hello !</p></blockquote> というような記述（個別の言語コード指定）を行うことはあります。さて、 ><meta http-equiv="content-type" content="text/html; charset=Shift_JIS" /> >これのことですよね？大丈夫だと信じたいのですが、不安です。についてですが、Shift_JIS（や、EUC-JP等）は、あくまでも、その文書がどのような「エンコード」をされた文書なのか？を明示するためであって、何語ということを明示していないと思うのですが。あれこれ調べましたが、htmlにおけるcharsetは「そのページが何語のページであるかを明示している」ということを裏付けるリソースは見当たりませんでした。（探し方が下手なのかもしれませんが…）たとえば、漢字もひらがなもカタカナも1字たりとも記述されていない、全文が英語のページをShift_JISでエンコードした。これって、英語ページなんでしょうか？　日本語ページなんでしょうか？日本語・英語、半々のときは？？真実はGoogleにしかわからないでしょうが、Shift_JISというだけで「日本語」と解釈されるとしたら…。そのようなアルゴリズムは…勘弁願いたいところです。これより詳しく、信憑性に足る回答につきましては、専門家に委ねることとします。

質問者

お礼 2007/05/18 20:39

buntan_bunさん、度々のご回答、そしてとても詳しく説明していただき、本当にありがとうございます。やはり、運営している人たちにしか分からない、外に公開していない”要素が”あって分からないですよね。 googleにサイトマップを送ってからまだ時間が経ってないせいか、相変わらずの結果です。もう少し待ってみようと思います。本当にありがとうございました。

ログインすると、全ての回答が全文表示されます。

ぜり～（@-Jelly-）
ベストアンサー率34% (132/383)

2007/05/16 12:55 回答No.3

>>まさかサーチエンジンが１つだとは思ってないですよね。 >これは、一つの検索エンジン(例えばgoogleならgoogle)だけで1つという意味でしょうか？ああああごめんなさいごめんなさい。検索エンジン（サーチエンジン）は、googleやmsn、yahooのことです。これはgoogleが１つ、msnが１つ・・・ですね。 googleという１つの検索エンジンについてみてみます。 googleがまずウェブページの情報を集めますそして、何を集めるのかは知りませんが、集めた情報を蓄積します。情報が多いので、１つでは収まらないです。そこで、２つめ、３つめ・・・いくつあるのかは知りませんが。蓄積するサーバーが１つなら、私達が検索したとき、いつも出される情報は１つで同じはずです。これが、２つ３つ４つとあるから、検索するたびに違う結果が出るのではないか、と思ったわけです。日本語専用に２つ、それ以外用に１０個あったとして、私達が日本語検索をしたばあい、日本語専用サーバーのどちらかを参照することになるはずです。全体検索をした場合、日本語専用＋それ以外を混ぜて結果がでてくるとしたら、件の減少もありえるかな、と。言語関係なしでとりあえず集めまくったサーバーのほうに貴方の情報があって、それを日本語専用のほうが集めていなかったら、全体のほうが多くなるかな、と。まぁ憶測なんですが。こういう検索情報みたいのは企業秘密なんですよね。だからＳＥＯとかよくわかんないものは流行する、と…。基本は、参照回数が多ければ多いほど、安定して、さらに上位に検索されます。

質問者

お礼 2007/05/16 16:19

-Jelly-さん、ご回答ありがとうございます。すみません、混乱していました。少し整理がついた様に思います。ありがとうございました。

ログインすると、全ての回答が全文表示されます。

buntan_bun
ベストアンサー率62% (32/51)

2007/05/16 12:04 回答No.2

もしかしたら、<html lang="ja">ではなく、<html>となっているのではないでしょうか？そうであるなら、これが原因ではないかと思われます。少なくとも自分のサイトはlang属性を指定してあり、ご質問のような現象は発生しておりません。また、 <meta name="keywords" lang="ja" content="～～～"> <meta name="classification" lang="ja" content="～～～"> <meta http-equiv="content-language" content="ja" /> のように、個別にlang属性も指定しておりません。以下も参照してみてください。 http://www.kanzaki.com/docs/html/lang.html http://openlab.ring.gr.jp/k16/htmllint/explain.html#html-lang

質問者

お礼 2007/05/16 16:13

buntan_bunさん、ご回答ありがとうございます。 >>もしかしたら、<html lang="ja">ではなく、<html>となっているのではないでしょうか？まさに仰る通りのことをやっていました。これから直してみようと思います。個別のlang属性はなさっておられないのですね。了解しました。URL先もご紹介ありがとうございました。ありがとうございました。

ログインすると、全ての回答が全文表示されます。

ぜり～（@-Jelly-）
ベストアンサー率34% (132/383)

2007/05/16 10:13 回答No.1

サーチエンジン業者ではないので可能性の話ですがサーチエンジンは定期的に（どのぐらいの定期かは知らないですが、だいたい１週間２週間でしょう）ウェブサイトの収集を行い、情報をサーバーにためていきます。私達は、単語入力により、ためられたサーバーから検索をします。まさかサーチエンジンが１つだとは思ってないですよね。というかいくらなんでも１つだったらパンクする。こっちのサーバーは貴方のページ情報を収集したが、こっちのサーバーはしていない →検索のたびに違う結果がでると考えられるし、検索するたびに違う結果がでるというのは実際あります。有名なサイトや参照、検索されることが多いサイトではそう変わらないでしょうが。基本的にcharsetを宣言していれば、日本語サイトであるとサーチエンジン側は認識しているはずです。

質問者

お礼 2007/05/16 11:09

-Jelly-さん、ありがとうございます。 >>まさかサーチエンジンが１つだとは思ってないですよね。これは、一つの検索エンジン(例えばgoogleならgoogle)だけで1つという意味でしょうか？すみません、googleならgoogle1つの検索エンジンだけと、思っていました。複数あるとは思っていませんでした。でもすみません、「日本語～」の検索と「ウェブ全体～」の検索両方に出てくるページのキャッシュの時間を見ても、同じなのですが、これはどういうことでしょうか？(わたしの認識が間違っています？) >>基本的にcharsetを宣言していれば、上記は、 <meta http-equiv="content-type" content="text/html; charset=Shift_JIS" /> これのことですよね？大丈夫だと信じたいのですが、不安です。 ”確かに日本語のページである”と認識してくれるタグのようなものがあれば、教えていただきたいです。よろしくお願いいたします。

ログインすると、全ての回答が全文表示されます。