web-dev-qa-db-ja.com

robots.txtの「Disallow:/ search」とはどういう意味ですか?

ブログのGoogleウェブマスターツールパネルで、ブロックされたURLセクションのrobots.txtに次のコードが見つかりました。

User-agent: Mediapartners-Google
Disallow: /search
Allow: /

DisallowがGooglebotによるウェブページのインデックス作成を妨げることは知っていますが、Disallow: /searchの使用方法がわかりません。

Disallow: /searchの正確な意味は何ですか?

6
Sathiya Kumar

Disallowフィールド で、ブロックするURLのURLパスのthe先頭を指定します。

したがって、Disallow: /がある場合、すべてのURLパスが/で始まるため、 everything をブロックします。

Disallow: /aがある場合、/aで始まるパスを持つすべてのURLをブロックします。 /a.html/a/b/c/hello、または/aboutのいずれかです。

同じ意味で、Disallow: /searchがある場合、文字列/searchで始まるすべてのURLをブロックします。たとえば、次のURLをブロックします(robots.txtがhttp://example.com/にある場合):

  • http://example.com/search
  • http://example.com/search.html
  • http://example.com/searchengine
  • http://example.com/search/
  • http://example.com/search/index.html

次のURLは引き続き許可されますが、

  • http://example.com/foo/search
  • http://example.com/sea

Robots.txtは、文字列がディレクトリ、ファイルに一致するか、何にも一致しないかどうかを知りません。 URLの文字のみを調べます。

10
unor

他の回答では、このルールを適用するためにrobots.txtがどのように処理されるかを説明していますが、検索結果のクロールをボットに許可しないwhyに対処しないでください。

1つの理由は、検索結果の生成に費用がかかることです。ボットにこれらのページをクロールしないように指示すると、サーバーの負荷を減らすことができます。

検索結果ページも素晴らしいランディングページではありません。通常、検索結果ページには、サイトの10ページのリストがタイトルと説明とともに表示されます。一般に、ユーザーはこれらのページの最も関連性の高いページに直接アクセスすることで、より良いサービスを提供できます。実際、 Googleが言った 彼らはあなたのサイトの検索結果がGoogleによってインデックスされることを望まない。それらを禁止しない場合、Googleはあなたのサイトを罰する可能性があります。

2

OPは彼のコメントで "/ searchdirectory"のみに関心があることを示しているので、以下の私の答えは "search"ディレクトリだけを拒否することに関するものです。

以下は、ルートディレクトリにある「search」という名前のロボットsomethingをクロールしないようにするためのディレクティブです。

Disallow: /search

次のGoogleウェブマスターツールのヘルプドキュメントによると、ディレクトリ名の前にスラッシュ/を続ける必要があります。これは、他の次の参照元でも指定されています:

Googleウェブマスターツール-robots.txtファイルを使用してページをブロックまたは削除する

ディレクトリとその中のすべてをブロックするには、ディレクトリ名の後にスラッシュを付けます。Disallow: /junk-directory/

Robotstxt.org-何を入れるか

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

In this example, three directories are excluded.

ウィキペディア-ロボット排除基準

This example tells all robots not to enter three directories:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/

Googleによると(上記のように)、次のようにすると、ユーザーエージェントMediapartners-Googleを持つボットがルートディレクトリにある「検索」ディレクトリをクロールできなくなります。 、ただし、他のすべてのディレクトリのクロールを許可します。

User-agent: Mediapartners-Google
Disallow: /search/
Allow: /
1
dan

/searchディレクトリ以下のファイル(つまり、/searchのサブディレクトリ)をクロールしないようAdSenseに指示します。

1
John Conde

これは、ユーザーエージェントMediapartners-Googleが/searchの下のディレクトリにアクセスすることを許可されないことを意味します

/search/go blocked
/search blocked
/ not blocked.
1
alex jones