web-dev-qa-db-ja.com

noindexメタタグ付きのGoogleインデックスページ

Googleウェブマスターツールで、「Googlebotがあなたのサイトで非常に多くのURLを見つけた」というメッセージと、URLの長いリストを受け取りました。

リストされたページのいくつかについては、それらがインデックスされるのを妨げるものは何もありませんでした。ただし、一部のURLには、次のような"noindex, nofollow"メタタグがあります。

<meta name="googlebot" content="noindex, follow" />
<meta name="bingbot" content="noindex, follow" />
<meta name="msnbot" content="noindex, follow" />
<meta name="Slurp" content="noindex, follow" />
<meta name="teoma" content="noindex, follow" />

Googleは、ページを指す別のリンクを見つけた場合、robots.txtでブロックしたページをインデックスに登録することがありますが、メタタグを尊重していると思われますか?

3
alexp

Nofollow、noindex、さらにロボットを介したブロックは、コンテンツがクロールされないことを意味することに注意することが重要です。実際、これらのページはまだインデックスに登録できますが、公開検索結果からは非表示にできますtrue)。ページでnoindexを使用すると、Googleはそのタグを見つけるためにページをクロールする必要があります。Googlebotは一度に1行ずつ処理するのではなく、タグにヒットすると停止し、ページ全体をダウンロードするため、 Googleウェブマスターツールで報告されています。

これらのページはウェブマスターツール内に表示されますが、実際の検索結果に含まれているわけではなく、Google検索内でsite:yourdomain.comを実行し、それらのページが見つかったかどうかを確認します。どういうわけか、タグは無視されました。

Googleは、公開検索結果で利用できるコンテンツをブロックするために、実際にはメタ名とロボットの両方を推奨しています。また、メタ名内でボット名を使用する必要はなく、簡単な"robots"でトリックを行う必要があります。

メタ名は次のようになります。

<meta name="robots" content="noindex, nofollow">

そして、あなたはrobots.txtをそうする必要があります

User-agent: *
Disallow: /foldername/
4
Simon Hayter

Googleからの指示 に従って、正しいはずです。いくつかの提案:

  1. メタタグが<head>タグ内にあることを確認してください

  2. メタタグが実際に「noindex、nofollow」と言っていることを確認してください(コードが「noindex、follow」と言っている-それが単なるコピーの間違いかどうかわからない)

  3. さまざまな検索エンジンについていくのではなく、標準の<meta name="robots" content="noindex, nofollow">を使用します

  4. メタタグを最近追加または変更したばかりの場合は、Googleがページを再度クロールするのを待つか、または RL削除リクエスト を使用して一部のURLの削除を促進します。

1
joshuahedlund

ウェブマスターツールのメッセージ「Googlebotが非常に多くのURLをサイトで見つけました」は、GooglebotがそれらのURLを見つけてクロールしていることを示しています。 GoogleにはURLがあり、これについて少し説明し、「カレンダーページ」などの永遠に続く例を示しています。

メタタグを使用すると、ページを読み取ってコンテンツを破棄するようGoogleに指示するだけですnoindex-ただし、そのページのすべてのリンクをfollowにします。 Googleがこれらのリンクをたどらないようにするには、代わりにnofollowを使用する必要があります。

robots.txtで不許可を設定すると、ボットはWebサイトにアクセスできなくなりますが、検索リンクに(リンクされた)ページが保持されることはありません。

1
Patrick

PageRankをこれらのページから他のページに通常通り流したいので、noindexにnofollowを追加しないでください。インデックスを作成したくないだけです。

したがって、インデックスを作成したくないページでは、<meta name="robots" content="noindex, follow"><head>セクションに追加するだけです。

robots.txt除外を必ず削除してください。それらが存在する場合、メタは表示されず、ページも削除されません。

もう少し複雑な方法robots.txtandのページを除外するウェブマスターツールでGoogle URL削除ツールを使用します。 Robot Exclusion Standardは、Googleのツールを使用してURLの削除も実行し、元に戻さない場合にのみインデックス作成を防止することに注意してください。ウェブマスターツールアカウントで元に戻した場合、たとえば、サイト以外のソースからページが見つかった場合、ページは再びインデックスに登録される可能性があります。

0
Mattypants