web-dev-qa-db-ja.com

特定のURLがインデックスに登録されないようにする方法

site:example.com(明らかにドメインを使用)と入力すると、リストにいくつかのリンクエラーが表示されます。通常、それらは次の形式です:/some/fixed/path/admin/unblockUser/11

robots.txtファイルに次の行を追加することを考えています。

Disallow: /some/fixed/path/admin/*
8
morpheous

検索エンジンが特定のページのインデックスを作成できないようにする主な方法は2つあります

  1. ドメインのRobots.txtファイル。
  2. 各ページのMeta Robotsタグ。

Robots.txtは、複数のファイルに一致するURLパターンの最初の停止点です。 構文はこちら および 詳細はこちら をご覧ください。 robots.txtファイルは、ドメインのルートフォルダー、つまりhttp://www.yourdomain.com/robots.txtに配置する必要があり、次のようなものが含まれます。

User-agent: *
Disallow: /path/with-trailing-slash/

(上記のテキストの色付けはStackexchangeソフトウェアによって行われるため、無視してください。)

Meta Robotsタグはより柔軟で機能的ですが、影響を与えるすべてのページに挿入する必要があります。

繰り返しになりますが、Googleには Meta Robotsの使用方法の概要 と、取得方法 インデックスから削除されたページ があります。ウィキペディアには、検索エンジン固有の派生を含む、より多くの Meta Robotsに関する包括的なドキュメント があります。

Google、ウェブアーカイブ、およびその他の検索エンジンがWebページのコピーを保持するを禁止する場合は、次のタグ(HTML4形式で表示)が必要です。

<meta name="robots" content="noarchive">

indexingおよびcopying a copyを防ぐには:

<meta name="robots" content="noindex, noarchive">

上記の両方、およびページ上のリンクを使用して他のページを検索するを防止してインデックスを作成するには:

<meta name="robots" content="noindex, nofollow, noarchive">

注意1:上記の3つのメタタグはすべて検索エンジン専用であり、HTTPプロキシやブラウザには影響しません。

注意2:既にページにインデックスを作成してアーカイブし、robots.txtでページをブロックし、同時に同じページにメタタグを追加すると、robots.txtは検索エンジンが更新されたメタタグを表示できないようにします。

16

実際、Googleや他の検索エンジンがURLのインデックスを作成することを防ぐ3つ目の方法があります。 X-Robots-Tag HTTP応答ヘッダー です。これはすべてのドキュメントで機能し、複数のタグを持つことができるため、メタタグよりも優れています。

REP METAタグを使用すると、サイトの各Webページのインデックス作成方法を効率的に制御できます。ただし、HTMLページでのみ機能します。 Adobe PDFファイル、ビデオおよびオーディオファイル、その他のタイプなど、他のタイプのドキュメントへのアクセスをどのように制御できますか?さて、今では、URLごとのタグを指定するのと同じ柔軟性が、他のすべてのファイルタイプで利用できます。

METAタグのサポートを拡張して、すべてのファイルに関連付けることができるようになりました。サポートされているMETAタグを、ファイルの提供に使用されるHTTPヘッダーの新しいX-Robots-Tagディレクティブに追加するだけです。 Google検索結果にこのアイテムのキャッシュリンクまたはスニペットを表示しない:X-Robots-Tag:noarchive、nosnippet Google検索結果にこのドキュメントを含めない:X-Robots-Tag :noindexドキュメントは2007年7月7日午後4時30分GMT以降に利用できなくなることをお知らせください:X-Robots-Tag:unavailable_after:2007年7月7日16:30:00 GMT

同じドキュメントで複数のディレクティブを組み合わせることができます。例:このドキュメントのキャッシュリンクを表示せず、2007年7月23日午後3時(PST)以降にインデックスから削除します:X-Robots-Tag:noarchive X-Robots-Tag:unavailable_after:23 Jul 2007 15:00:00 PST

4
John Conde

このページが一般に公開されないことを目標とする場合、このページセットにパスワードを設定することをお勧めします。サイトにアクセスできる特定のホワイトリストアドレス(これはサーバーレベルで、おそらくホストまたはサーバー管理者を介して実行できます)。

あなたの目標がこれらのページを存在させることであり、他の人が言及したように、Googleや他の検索エンジンによってインデックスされない場合、いくつかのオプションがありますが、区別することが重要だと思いますこの意味でのGoogle検索の2つの主な機能:クロールとインデックス作成。

クロールとインデックス作成

Googleはサイトをクロールし、Googleはサイトのインデックスを作成します。クローラーはサイトのページを見つけ、インデックスはサイトのページを整理します。この詳細については、 here を参照してください。

この区別は、Googleの「インデックス」からページをブロックまたは削除しようとする場合に重要です。多くの人は、デフォルトでrobots.txtを介してブロックするだけです。これは、クロール対象(または対象外)をGoogleに指示するディレクティブです。 Googleがサイトをクロールしない場合、インデックスを作成する可能性は低いと考えられます。ただし、Googleでインデックス登録されたrobots.txtによってブロックされたページを表示することは非常に一般的です。


Googleおよび検索エンジンへのディレクティブ

これらのタイプの「ディレクティブ」は、サイトのどの部分をクロールしてインデックスを作成するかについてのGoogleへの単なる推奨事項です。それらに従う必要はありません。これは知っておくことが重要です。 私は長年にわたって多くの開発者がrobots.txtを介してサイトをブロックすることができると考えてきましたが、数週間後に突然Googleでサイトのインデックスが作成されています。他の誰かがサイトにリンクする場合、またはGoogleのクローラーの1つが何らかの方法でそのサイトを取得する場合、 をインデックスに登録できます .

最近、GSC(Google Search Console)の更新されたダッシュボードでは、 「インデックスカバレッジレポート」と呼ばれるこのレポートを使用できます。 、Googleが特定のページセットを処理する方法に関する具体的な詳細。 「インデックスは付けられているが、Robots.txtによってブロックされている」というラベルの付いた「警告」を受け取っている多くのWebサイトを見たことがあります。

Googleの 最新のドキュメント は、ページをインデックスから外したい場合は、noindex nofollowタグを追加することを記載しています。


URL削除ツール

「URLの削除ツール」について他の人が述べたことに基づいて作成します。..

ページのインデックスが既に作成されており、それらを公開することが急務である場合、Googleの「URL削除ツール」を使用すると、検索結果からページを「一時的に」ブロックできます。リクエストは90日間続きますが、noindex、nofollowなどの余分なレイヤーを使用するよりも、Googleからより速くページを削除するために使用しました。

「URL削除ツール」を使用すると、Googleは引き続きページをクロールし、場合によってはキャッシュしますが、この機能の使用中にnoindex nofollowタグを追加して、90日が経過するまで表示することができます。これで、ページのインデックスを作成しないことがわかります。


重要:robots.txtとnoindex nofollowタグの両方で nofollowタグを使用する は、Googleに対して多少矛盾する信号です。

その理由は、Googleにページをクロールしないように指示し、そのページにnoindex nofollowがある場合、noindex nofollowタグを表示するためにクロールしない可能性があるためです。その後、他の方法(リンク、その他)でインデックスを作成できます。 これが起こる理由の詳細はかなりあいまいですが、私はそれを見ました


要するに、私の意見では、特定のURLがインデックスに登録されないようにする最良の方法は、それらのページにnoindex nofollowタグを追加することです。 robots.txtでもこれらのURLをブロックしないでください。couldにより、Googleがこれらのタグを適切に表示できなくなります。 Googleがnoindex nofollowを処理している間、[URLをGoogleから削除]ツールを活用して検索結果から一時的に非表示にすることができます。

1
woke zombie

はい、それで問題は解決します。 Googleのインデックスにコンテンツが表示されないようにするには、robots.txtまたはhtmlメタタグを使用できます

<meta name="robots" content="noindex, nofollow" />

次回サイトがインデックスに登録されると、コンテンツがGoogleのインデックスから削除されます。

noarchive値も使用できます。これにより、ページのキャッシュがブロックされます。これはGoogle固有です:

<meta name="robots" content="noarchive" />

Googleのウェブマスターツールの「削除ツール」を使用して、コンテンツの非常に緊急な削除をリクエストできます。最初にコンテンツのインデックス作成をブロックする必要があることに注意してください(robots.txtまたはmeta robotsタグのいずれかを使用)。

詳細:

1
mawtex