web-dev-qa-db-ja.com

サイトマップのパラドックス

Stack Overflowで sitemap を使用しますが、それについては複雑な気持ちがあります。

Webクローラーは通常、サイト内のリンクおよび他のサイトからページを検出します。サイトマップはこのデータを補完して、サイトマップをサポートするクローラーがサイトマップ内のすべてのURLを取得し、関連付けられたメタデータを使用してそれらのURLについて学習できるようにします。サイトマップ protocol を使用しても、Webページが検索エンジンに含まれることは保証されませんが、Webクローラーがサイトをより適切にクロールするためのヒントを提供します。

2年間のサイトマップの経験に基づいて、何かがありますサイトマップについて基本的に逆説的

  1. サイトマップは、適切にクロールするのが難しいサイトを対象としています。
  2. Googleがリンクを見つけるためにサイトを正常にクロールできないが、サイトマップでそれを見つけることができる場合、サイトマップリンクに重みを与えず、インデックスを作成しません!

それがサイトマップのパラドックスですサイトが適切にクロールされていない場合(何らかの理由で)、サイトマップを使用しても役に立ちません!

Googleは サイトマップの保証なし

「URLがクロールされるかインデックスに追加されるかについて、予測または保証することはできません」 citation

「すべてのURLをクロールまたはインデックス登録することを保証しません。たとえば、サイトマップに含まれる画像URLをクロールまたはインデックス登録しません。」 引用

「サイトマップを送信しても、サイトのすべてのページがクロールされるか、検索結果に含まれることは保証されません」 citation

サイトマップで見つかったリンクは単なる推奨事項であるのに対して、自分のWebサイトで見つかったリンクは正規と見なされます...唯一の論理的なことはavoidサイトマップを作成し、Googleや他の検索エンジンが他の人が見る普通の標準的なWebページを使用してサイトを適切にスパイダーできるようにします。

あなたがthatを完了し、グーグルがこれらのサイトへの自分のサイトリンクを確認できるようにすっかりスパイダーになっている時までにページ、そしてリンクをクロールすることをいとわないでしょう-ええと、なぜ再びサイトマップが必要なのでしょうか?サイトマップは、検索エンジンのスパイダーがサイト全体を正常にクロールできるようにすることを妨げるため、積極的に有害になる可能性があります。 「ああ、クローラーがそれを見ることができるかどうかは関係ありません。サイトマップでそれらのリンクをたたくだけです!」私たちの経験では現実は正反対です。

これは、サイトマップが意図であり、リンクの非常に深いコレクションやスパイダーが難しい複雑なUIを持っているサイトを想定していることを考えると、少し皮肉に思えます。私たちの経験では、サイトマップは役に立ちませんGoogleがあなたのサイトで適切なリンクを見つけられない場合、とにかくサイトマップからインデックスを付けられません。この証明された時間とStack Overflowの質問でもう一度。

私が間違っている?サイトマップは理にかなっており、どういうわけか間違ってそれらを使用していますか?

249
Jeff Atwood

免責事項:Googleのサイトマップチームと一緒に仕事をしているので、やや偏見があります:-)。

「非Webインデックス」コンテンツ(画像、ビデオ、ニュースなど)にサイトマップを広範囲に使用することに加えて、サイトマップファイルに含まれるURLからの情報を主な目的に使用します。

  • 新規および更新されたコンテンツの発見(これは明らかなものだと思います。そうです、そうでなければリンクされていないURLもピックアップしてインデックスを作成します)
  • 正規化の優先URLを認識する( 正規化を処理する他の方法 もあります)
  • Google Webmaster Toolsで有用なインデックス付きURLカウントを提供します(site:-queriesからの近似はメトリックとして使用できません)
  • 有用なクロールエラーの基礎を提供する(サイトマップファイルに含まれるURLにクロールエラーがある場合、それは通常、より大きな問題であり、ウェブマスターツールで個別に表示されます)

ウェブマスター側では、サイトマップファイルも非常に便利であることがわかりました。

  • クローラーを使用してサイトマップファイルを作成すると、サイトがクロール可能であることを簡単に確認でき、どのようなURLが見つかったかを直接確認できます。クローラーは好みのURLを見つけていますか、それとも何か正しく構成されていませんか?クローラーは無限のスペース(例:無限のカレンダースクリプト)のどこかに詰まっていますか?サーバーは負荷を処理できますか?
  • サイトには実際に何ページありますか?サイトマップファイルが「クリーン」な場合(重複がないなど)、簡単に確認できます。
  • 重複するコンテンツに遭遇することなく、あなたのサイトは本当にきれいにクロールできますか? Googlebotが残したサーバーログをサイトマップファイルと比較します。GooglebotがサイトマップファイルにないURLをクロールしている場合は、内部リンクを再確認することをお勧めします。
  • サーバーで優先URLの問題が発生していますか?サーバーエラーログをサイトマップURLとクロスチェックすることは非常に便利です。
  • 実際にインデックス付けされているページはいくつですか?前述のように、このカウントはウェブマスターツールに表示されます。

確かに、非常に小さく、静的で、簡単にクロール可能なサイトの場合、サイトのクロールとインデックス登録が完了すると、Googleの観点からサイトマップを使用する必要がなくなる場合があります。それ以外の場合は、使用することをお勧めします。

FWIW私も同様にカバーしたいいくつかの誤解があります:

  • サイトマップファイルは、クローラビリティの問題を「修正」するためのものではありません。サイトをクロールできない場合は、それを修正してくださいfirst
  • ランキングにサイトマップファイルは使用しません。
  • サイトマップファイルを使用しても、サイトの通常のクロールは削減されません。これは追加情報であり、クロールに代わるものではありません。同様に、サイトマップファイルにURLが含まれていなくても、インデックスが作成されないという意味ではありません。
  • メタデータについて大騒ぎしないでください。有用な値(優先度など)を提供できない場合は、それらを省略してください。心配する必要はありません。
190
John Mueller

優れたサイトアーキテクチャがあり、Googleが自然にページを見つけることがわかっている場合、サイトが十分に高速にインデックス付けされていれば不要であるため、インデックス付けが高速化されていることを認識しています。

2009年の記事で、紳士がGoogleがサイトマップありとなしでサイトをクロールする速度をテストしました。 http://www.seomoz.org/blog/do-sitemaps-effect-crawlers

私の経験則では、新しいものやテストされていないものを起動する場合、Googleがサイトをクロールする方法を確認して、修正する必要のあるものがないことを確認したいので、変更を加えたい場合は送信しないでくださいグーグルは、それらをより速く見るために送信します。または、ニュース速報など他の時間に敏感な情報がある場合は、グーグルが最初に見ることを確認するためにできる限りのことをしたいので、送信します。

40
Joshak

疑わしいのは、Googleの場合、更新を可能な限り迅速に追跡するためにサイトマップが必要だということです。たとえば、ウェブサイトの深い場所に新しいコンテンツを追加したとします。これには、ホームページから10〜20回以上クリックする必要があります。 Googleがこの新しいページに到達する可能性は短時間で低くなるため、このページへのパスが完全に決定されるまで、existenceがアナウンスされます。結局、PageRankはすぐに計算されず、ユーザーの行動などを評価するのに時間がかかります。それまで、エンジンが新しいコンテンツを含むページをクロールしてインデックスを作成すべきではないのはなぜですか。

15

Googleの言葉を借りると、「ほとんどの場合、ウェブマスターはサイトマップを送信することで利益を得ることができますが、サイトマップに対してペナルティが科されることはありません。」

しかし、ウェブサイトのページを検索エンジンに表示したい場合にできる最善の方法は、サイトから適切にクロールできるようにすることです。

8
Daniel Alexiuc

サイトマップは、正しく使用すれば非常に価値があります。

まず、Googleがヒントだと言っているという事実は、a)サイトマスターがサイトマップ=インデックス化という誤った印象を受けないようにし、b)Googleが特定のサイトマップを信頼できないと判断した場合に無視できるようにすることです(別名lastmodは、アクセスされる毎日のすべてのURLの現在の日付です。

ただし、Googleは通常、サイトマップを好み、使用します(実際、サイトマップを見つけてGoogleウェブマスターツールに追加することもあります)。どうして?クロールの効率が向上します。

シードサイトから開始してWebをクロールする代わりに、送信されたサイトマップに基づいて、適切な量のクロール予算をサイトに割り当てることができます。また、関連するエラーデータ(500、404など)を使用してサイトの大きな履歴を作成することもできます。

Googleから:

「Googlebotは、あるページから別のページへのリンクをたどってWebをクロールするため、サイトが適切にリンクされていない場合、それを発見するのは難しいかもしれません。」

彼らが言っていないのは、ウェブをクロールするのは時間がかかり、チートシート(別名サイトマップ)を好むということです。

確かに、サイトはクロールの観点からは問題ないかもしれませんが、新しいコンテンツを導入したい場合、そのコンテンツを優先度の高いサイトマップにドロップすると、クロールとインデックス登録をすばやく行うことができます。

また、新しいコンテンツをすばやく検索、クロール、インデックス化するため、Googleでも同様に機能します。今、Googleがジャングルアプローチのマチェーテよりもbeat地を好むとは思わない場合でも、サイトマップが価値がある別の理由があります-追跡。

特に、サイトマップインデックス(http://sitemaps.org/protocol.php#index)を使用すると、サイトをセクションに分割できます(サイトマップごとのサイトマップ)。そうすることで、サイトのインデックス化率をセクションごとに確認できます。

1つのセクションまたはコンテンツタイプのインデックス化率が87%で、別のセクションまたはコンテンツタイプのインデックス化率が46%である場合があります。それが理由を理解するのはあなたの仕事です。

サイトマップを最大限に活用するには、サイト上のGooglebot(およびBingbot)クロールを(ブログ経由で)追跡し、それらをサイトマップに一致させてから、トラフィックを追跡します。

サイトマップで眠らないでください-サイトマップに投資してください。

8
AJ Kohn

検索エンジンはサイトマップを使用してページを検索するのではなく、更新を確認する頻度を最適化するために使用すると考えています。彼らは<changefreq><lastmod>を見ます。 Googleはおそらくウェブサイト全体を頻繁にクロールします(ログをチェックしてください!)が、すべての検索エンジンがそのためのリソースを持っているわけではありません(誰かが Blekko ?を試しましたか)。いずれにせよ、それらを使用することにペナルティはなく、自動的に簡単に作成できるため、私はそれを続けます。

7
Adam

このトピックに関心がある場合は、この素晴らしいGoogleペーパーをお読みください http://googlewebmastercentral.blogspot.com/2009/04/research-study-of-sitemaps.html (2009年4月)-を読むブログ投稿だけでなく、完全な論文。

紙から

  • わかりました、基本的にグーグルは同じ質問に苦労しました。
  • サイトマップ内で価値を決定する方法を開示していませんが、スタートページからサイトマップへの仮想リンクの概念に言及しています。
  • 他の多くの興味深いもの

ええ、サイトマップは主に値の決定ではなく、発見(Googleがあなたのものを発見するプロセス)に使用されます。発見に苦労している場合は、サイトマップを使用してください。ディスカバリーはクロールの前提条件ですが、値の決定には影響しません。

私の経験から

  • ページの相互リンクにHTMLおよびXMLサイトマップを使用するサイトのsh * tloadがあります。
  • これらのうち、XMLサイトマップは、HTMLサイトマップよりもはるかに優れたクロールです。 (私はいくつかの本当に大きなものを本当によく見ました)
  • xMLサイトマップを使用するだけの非常に成功したサイトもあります。

50万ペー​​ジ以上あるサイトにSEO戦略を実装するとき

  • ランディングページ
  • sitemap.xml
  • スタートページ

それ以外はすべて「バラスト」です。他のものは正のSEO値を持っているかもしれませんが、間違いなく負の値を持っている可能性があります。サイトの管理が難しくなります。 (p.s .:値を決定するために、意味のある方法でランディングページを相互リンクします(大きな影響)が、それはすでに2番目のステップです)。

あなたの質問について:発見、クロール、インデックス作成、ランキングを混同しないでください。すべてを個別に追跡でき、すべてを個別に最適化できます。優れた(つまり、リアルタイムの)サイトマップを使用して、発見とクロールを大幅に強化できます。

6
Franz

サイトマップはあなたのお尻を保存できます。

私のサイトの1つに、検索エンジンのスパイダーを防ぐリンクが多数あります。簡単に言えば、Googleは私のフォーラムでJSを誤って解釈し、多くの500と403の応答コードをトリガーしていました。 robots.txtを使用して問題のあるURLを除外することで、この問題を回避しました。

ある日、私はめちゃくちゃにして、Googleが本当にインデックスに登録したかったサイトのいくつかのページをクロールできないようにしました。フォーラムが除外されているため、「robots.txtによる制限」のウェブマスターツールのエラーセクションには4000ページ以上あったため、手遅れになるまでこのエラーを拾いませんでした。

幸いなことに、私のサイトのすべての「重要な」ページはサイトマップにあるため、Webmaster Toolsがサイトマップのページの問題に対して持つ特別なエラーカテゴリでこの問題をすばやく検出することができました。

余談ですが、サイトマップインデックスを使用して、サイトのさまざまなセクションのインデックス作成の品質を判断することで多くのメリットが得られます。 前述のとおり by @AJ Kohn。

5
JasonBirch

私自身はこれに遭遇していませんが、私のプロジェクトの大部分は、そうでなければユーザーアカウントを必要とするアプリケーションまたはサイトであるため、検索エンジンによるインデックス作成は焦点ではありません。

そうは言っても、SEOが基本的にサイトマップを役に立たなくしたと聞いたことがあります。プロトコルを見ると、ページがどのくらいの頻度で変更され、各ページの相対的な優先順位が何であるかを伝える「名誉システム」のようなものです。 1ダースのSEO企業がフィールドを悪用しているのは理にかなっています-すべてのページが最優先事項です!すべてのページは1時間ごとに変更されます! -レンダリングされたサイトマップは事実上役に立たない。

2008年のこの記事 は基本的にそうであり、あなたと同じ結論に達しているようです。

4
Travis Illig

これは(最初?) ランドフィッシュオーバーSEOmoz によって書かれました。2007年の古き良き年にさかのぼります。彼が初めて同じタイプの結論に至りましたが、それが時間でした。 。そして合格しました。

それ以来(2009年1月)、サイトマップの生成、検証、および送信の全体的な肯定的な結果がマイナス面を上回るというポストスクリプトを記事に追加しました。

2009年1月5日更新-私は実際に、このアドバイスについて私の考えを大きく変えました。はい、サイトマップはまだアーキテクチャ上の問題を曖昧にする可能性がありますが、私は過去1。5年にわたって経験してきたことを考えると、私はすべてのクライアント(および要求するほぼ全員)にサイトマップを提出することをお勧めします。クロール、インデックス作成、およびトラフィックの面でのプラスは、マイナス面を上回るものです。

3
Mike Hawkins

クロールさせます

私は次のことを行います:

  1. 古い方法でサイトをクロール可能にします。
  2. robots.txtにサイトマップが表示されていることを確認してください。
  3. xMLサイトマップを作成しますが、送信しないでください。検出およびインデックス作成プロセスの一環として、必要に応じてクローラーに検出して使用させます。

拡張されたXMLファイルを生成します。これは、多くのことのベースとして機能します。

  • HTMLサイトマップの生成
  • 404(not found)ページのヘルプ
  • パンくずリストの作成、ページのファサードパターンに関するメタデータの取得など、他の小さなタスクを支援します。

したがって、XMLサイトマップも提供し、クローラーがやりたいことをやりたいのであれば、それをやりましょうか?

3
Dave

ジェフ、私はStackoverflowについて全く知りません。なぜなら、これほど大きくて頻繁に更新されるWebサイトのWebマスターになる機会がなかったからです。

頻繁に変更されない小さなウェブサイトの場合、サイトマップは非常に便利だと思います(サイトマップが最も重要だと言っているわけではありませんが、はい、非常に便利です)理由:

  1. サイトはすばやくクロールされます(上記の Joshakの回答 で説明された同じ理由)および私の小さな経験では、小さなサイトでこれに何度も気付きました(最大30/50ページ)

  2. 数週間後にサイトマップを送信した後、「Google Webmaster Tools-Sitemaps」を見ると、サイトマップで送信されたURLの数とWebインデックスのURLの数を見ることができます。それらが同じであることがわかったら、それでいいです。そうでない場合、どのページがインデックスに登録されていないのか、そしてその理由をウェブサイトですぐに確認できます。

3
Marco Demaio

最近、SiteMapsは2つの目的にのみ役立つと考えています。

  • サーバーの負荷を軽減するために、スパイダーの頻度を減らすことができます。これは、ほとんどのサイトで実際に問題になることはありません。
  • 検索エンジンがすでにあなたについて知っていることを強化するのに役立ちます。ページ名をリストし、明らかに各ページに適切な重みを追加すると、検索エンジンがサイトアーキテクチャをランク付けするための独自のメトリックを検証するのに役立ちます。
2
LabSlice

サイトマップを使用しないでください

サイトマップは主に、インデックスとノードにタイムスタンプを付けないサイト用です。SEはコアコンテンツに対して両方を実行するため、サイトマップがあるとクローラーの速度が低下します...はい、そうです、サイトマップはコアインデックスにあるメタデータがありません。反対に、グーグルがボットをどのように構築するかについての本当のアイデアはありません。SEをボットするつもりなら、サイトマップを使用しないでしょう。さらに、一部のサイトでは、サイトマップがすべて%!@ $であることに気付かないこともあります。また、サイトマップ上にプロファイルを作成したが、突然機能しなくなった場合、新しいプロファイルを作成する必要があります。実際のサイト。

だから、あなたは正しいです-サイトマップを使用しないでください!

TIP:ただし、タグのセマンティクスを可能な限り同じ状態に保つことは、「Asked One Hour Ago」に次のようなメタデータが埋め込まれている場合です。

title="2010-11-02 00:07:15Z" class="relativetime"

relativetimeのデータの意味が変更されていない限り、文字列名titleを変更しないでください。 決して...:-)

1
blunders

最近、まだ作業中のサイトを再構築しました。ユーザーを支援するために500,000ページをリンクする良い方法がなかったため、XMLサイトマップを使用してGoogleに送信し、代わりにサイト検索を使用することにしました。 Googleは以前のサイトのインデックス作成に問題はありませんでしたが、サイトマップを追加したため、Googleはサイトのスパイダーとページのインデックス作成を非常に高速で実行します。 Googleはサイトマップを使用して新しいページを見つけ(週に約3300)、更新されたページを再訪しました。私の本では本当に勝ちました。まだページをリンクしてルックアップにAJAXを使用する新しい方法を見つけたいと思っていますが、それは別の日のプロジェクトです。ここまでは順調ですね!それは私にとって良い解決策でした。すべて、すべて、私は獲得し、失われていません。サイトマップは実際にはもっと便利であるが、そのデザインによって制限される可能性があると常に感じていたので、これは興味深いことです。

1
closetnoc

Googleがサイトマップのみのリンクをインデックスに登録しないことに同意しません。私はサイトマップを介してのみ到達可能なページを持っている多くのサイトがあり、グーグルは問題なくそれらをインデックスします。これの多くの例を挙げることができます。

0
setiri

よく構築されたサイトは、サイトマップを必要としませんが、カバレッジとランキングを支援し、優先度、更新頻度などの追加の値を追加します。検索エンジンにちょっと教えてください...フルクロールを必要とせずに、サイトの中央のどこかで。クロールのパターンは一度も見たことがありませんが、役に立てば幸いです。

私にとって本当のプラスは、ウェブマスターツールと、それがあなたのウェブサイトの可視性とユーザーに与える洞察力だということです。

0
dan

サイトマップを使用すると、ページが補足インデックスにすばやく登録されると聞きました。しかし、私は年齢で言及された補足指数さえ聞いていないので、彼らはもうそれを使用していないかもしれません。

追伸私の声明が十分に明確ではない場合、補足索引にあることは悪いことです(またはそうでした)...したがって、サイトマップは悪いです(またはそうでした)。

0
joedevon

主にホームページのrobots.txtが最高であることを確認するために、サイトマップ(検索エンジンに送信されず、<priority>でリンクされます)を使用します。他の用途があるかどうかはわかりません。

0
TRiG