web-dev-qa-db-ja.com

SEO:ページネーション/タグ/インデックスページによって引き起こされるコンテンツの重複

可能性のある複製:
重複したコンテンツとは何ですか、自分のサイトでそのコンテンツにペナルティを科さないようにするにはどうすればよいですか?

インデックス、ページネーション、タグページなどの移行ページにNoIndexタグを使用する必要があることを読みました。これは本当ですか?インデックス、検索、タグ、ページネーション、日付ページにNoIndexを配置することを検討しているTumblrブログがあります。

NoIndexで十分ですか、それとも他の方法がありますか?サイトのインデックスページをNoFollowとしてマークする必要がありますか?それは本当に良い音ではありません。

NoIndexを配置するページは何ですか?

3
Jiew Meng

複数のページURLが同じコンテンツを生成する場合、まさにそれが <link rel="canonical"> の目的です。これは、複数のURLのコンテンツが同じであることを検索エンジンに伝え、その特定のURLをプライマリURLとして使用するためです。これにより、重複の問題が完全に回避され、非常に簡単に実行できます。

3
John Conde

いいえ、検索エンジンがページネーションまたはタグページのインデックスを作成することを停止しないでください。 (そして間違いなくインデックスページ!)明確なメニュー構造のないブログやサイトの場合、それがコンテンツを見つける主な方法です。

多くの場合、検索エンジンはこれらのページをうまく処理し、最も重要なコンテンツ、つまりブログエントリ自体を見つけることができます。

ただし、これらのリストページがブログの投稿よりもインデックス付けされていることに気付いている場合は、たとえば、人気による並べ替えなど、「無限の構成」のインデックス付けをブロックすることをお勧めします。または、同じアイテムが異なる順序でリストされているもの-1つの賢明な順序のインデックス付けを許可し、残りは無視します。

2
DisgruntledGoat

強制的に防止でない限り、すべてのロボットがサイトのページをスパイダーするのを止めることができるものはありません。

そうは言っても、いつでもencourageロボットを追跡し、必要なもの/望まないものをインデックスに登録することができます。これらの方法のいくつかは次のとおりです。

  • robots.txtファイルを作成して、ルートディレクトリに配置します。
  • すべてのresponse headerキャッシュオプションを各リソースに適切に設定します。
  • スパイダーしたいページのみを含むsitemap.xmlドキュメントを作成します。
  • 一貫した大文字。すべてを何度も小文字にすることで、大文字/小文字を含む重複を防ぎます。
  • URLに$_GET変数を渡さないようにします(一意のデータが本当に作成される場合を除く)。 (たとえば、www.abc.com/index.php?session=21389271893219は代わりに$_POSTを使用します。
  • Notコンテンツが重複しています。 (これを防ぐためにmod_rewriteやリダイレクトを試してください)
  • ボット検出を使用して、404 NOT FOUNDをそれらのページに送信し、200またはライブユーザーにリダイレクトします。 (301sは議論の余地があります)
  • Googleウェブマスターツールを使用して、ページが検索結果に表示されないようにします。 (ただし、これは通常、最終手段のソリューションです。)
  • UTF-8エンコード/エンコード可能なURLは避けてください、それらは正規化されます。
  • 適切なセッション管理を使用して、安全な情報が直接アクセスされるのを防ぎます。

他にもありますが、これはほとんどすべての99%で機能します。トリックは、適切な初期URLディレクトリ設計です。

1
Talvi Watia