- 締切済み
HPワード検索ロボットへファイル認識のさせ方のご質問
あるHTMLファイルにはコンテンツがたくさんありました。せっかくロボット検索で言葉を拾ってもそれがファイルのどこにあるかを探すのが大変で、ずーっとスクロールさせなければなりませんでした。 この不便さを解消しようとそのファイルを単純に前半と後半の二つに分けました。HPの同じフォルダ内での処理ですが、最初にあったファイル名をA.htmとすればそれをA.htmとA2.htmとに分けたのです。 結果はA,htmにあるワード検索はOKですが、A2.htmにあるワードは拾わず、ページがみつかりませんと表示されます。その状態はもう2ヶ月になります。 そこで試しにパスを全く変えてみました。全部を新しく作った別フォルダに収め、ファイル名もA_new.htmとA2_new.htmという風にしてみました。もうロボットは回って来ていますがどちらのファイルも拾わず、すべてのワードについてページがみつかりません、となります。 これらのHTMLファイルをどうすればロボットに認識させる事が出来るでしょうか。よろしくお願いします。
- みんなの回答 (3)
- 専門家の回答
みんなの回答
- koutarou504
- ベストアンサー率44% (182/407)
#1 の者ですが、#1 の補足を別の表現で表すと、 1.新たなキーワードを追記した後に検索サイトでWeb検索をそのキーワードで検索すると引っかかる。 2.しかしそのキーワードでサイト内検索をすると引っかからない。 と理解してよろしいのでしょうか? これが 1 に於いて以前からあるキーワードだったりすると、ロボットが来た事があるという過去の事だけで、 訂正後に来たかどうかは判らないと思いますが・・・。 で、改めて申します。 ロボットはリンクを辿ってきます。 サーバーを適当に覗いてファイルを探し出す訳ではありません。 その「たどるべき道」は用意されていますか? また、その道は大きいですか? (大手にリンクしてもらうという事で・・・。直接ではないですが今回でも間接的には影響ありでしょう・・・) そして各ページは適切な HTML の記述となっていますか? (以前採用されていたのでしょうから、壊さない限り無視される程の事はないと思います。) あと念の為。 認識というか登録(採用)されるのは、 ページアドレスだけでなく キーワードとセットでの登録です。 サイト内検索と言ってもその都度サイト内のファイルの文字を読み取り,検査している訳ではないので、 別のキーワードで登録済みの可能性もありえます。 まぁ望む形で検索されるのは時間もかかり大変ですから・・・。 (また予想外の形で検索上位に載る事もありますので難しいです。)
- cyokokichi
- ベストアンサー率21% (32/152)
単純に不便さを解消するなら例えば ----------------------------------- <h2>abcとdef</h2> <p>abcとdefの簡単な説明</p> <ul> <li><a href="#abc">abcの詳細</a></li> <li><a href="#def">defの詳細</a></li> </ul> <h3><a name="abc">abcについて</a></h3> <p>abcの内容</p> <h3><a name="def">defについて</a></h3> <p>defの内容</p> ------------------------------------- で良いと思いますが・・・ abcで検索したときキャッシュで見ると先頭のabcは強調されますからユーザーはabcのリンクを辿ってabcについてを見ることができます。 キャッシュで見ないにしても先頭に青字にアンダーラインがあればリンクとわかりますので興味があればクリックするでしょう。 これをabcの出現頻度を考慮してページを分割するならもともとabcとdefにある程度関連性があり同じページにあったとするならば、 ------------------------------------------ <h2>abcとdef</h2> <p>abcの簡単な説明</p> <ul class="menu"> <li><strong>abcの詳細</strong></li> <li><a href="def.html">defの詳細</a></li> </ul> <h3><a name="abc">abcについて</a></h3> <p>abcの内容</p> --------------------------------------------- となるかもしれません。 そうすると検索ロボットは、もともと有ったabc.htmlには来ますからそこに新たに追加されたdef.htmlへのリンクを辿ってdef.htmlのデータを拾って行くといわれているのが一般的な解釈ではないでしょうか。
補足
ご回答ありがとうございます。 見出しタグとファイル内リンクを使って認識率を向上させる方法ですね。 この新しいフォルダに入れて分割・リネームしたファイル(複数)には全部テーマ名を<H3></H3>タグでくくり、小見出しは<H6></H6>でくくっています。そのテーマ名で検索してみると、ロボット検索に掛かりません。そして分割前の元ファイルの名前で検索を掛けてみると引っ掛かるのです。それをクリックするとファイル名を変えているので当然「ページが見つかりません」となってしまいます。 何かの理由でロボットの認識ミスが発生したのでしょうか。もう一回巡ってくるのを待つしかないでしょうか。
- koutarou504
- ベストアンサー率44% (182/407)
>もうロボットは回って来ていますが 何を以ってその様に判るのかによって回答も違ってきますがぁ・・・ >ロボットに認識させる事 これも何を以って認識されたと判断するのかなぁ~ で、とにかく望むページは他所からリンクされていますよね? というか、リンクされている元を辿れば いつかは(早めに)ロボットに認識されているというか(なんらかの)検索で引っかかるページに辿れますよねぇ・・・? 蛇足的一言。 機械にしてみれば A.htm と A2.htm は完全に別物です。(人が見れば似ているという感じがありますが。) 次にフォルダも変えたとなれば、 単に見知らぬ場所が増えたというダケの事です。 (特殊な排除登録の様な事があれば、登録外になれますが・・・ それ程のページでもないでしょうし。) フォルダも新たに変えたのなら、認識済みだった A.htm を足掛かりにする事も出来ない為、 より認識されにくくなったと思います。
補足
ご回答ありがとうございます。ご説明が不足していました、申し訳ありません。 ロボットがHPにいつの時点でアクセスしたかを把握するにはHPの最新日記コーナーで使ったワードを認識するかどうかからかなり高い確度で判ります。 ファイルを認識されたと判断するのは、最近はやりのサイト内ワード検索窓にそのファイル内で使った特別なワードを打ち込んで見て、正しくそのファイルを表示してくれるかどうかで行います。私の場合、サイト内ワード検索はコンテンツが多い為に自分自身にとって必要なのです。 >検索で引っかかるページに辿れますよねぇ・・・? 現実にはもう2ヶ月あまりもロボットに無視され続けているのです。普通ロボットは2週間弱10日あまりで回って来るようです。そもそもヒット率がそんなに低過ぎるHPではないんですけどねぇ。 >より認識されにくくなったと思います。 ふーっ、大変です。
お礼
良い結果と共にお礼を、と思っていましたが未だに結果が出ず、一方でもう一ヶ月も経っているので一応の締めをします。解決方法の方向としてはkoutarou504さんの仰った事で良いと思うのでその方向で色々やっています。 有難うございました。
補足
koutarou504さん、追加ご説明ありがとうございます。 >で、改めて申します。 >ロボットはリンクを辿ってきます。 >サーバーを適当に覗いてファイルを探し出す訳ではありません。 >その「たどるべき道」は用意されていますか? >また、その道は大きいですか? ご指摘有難うございます。ずしーんと来るご説明です。 一応かなり高い検索順位へランクされているHPではありますが、 仰るお言葉に素直に従ってみると、トップからその特定ファイルへ辿る道は 確かにあまり広くありませんでした。 かなり低い階層のファイルですからトップへ直接リンクは張れませんが 新しくバイパスリンクを張ってみました。 多分これで・・・。良い予感がします。