robots.txtの「Disallow：/ search」とはどういう意味ですか？

Question

ブログのGoogleウェブマスターツールパネルで、ブロックされたURLセクションのrobots.txtに次のコードが見つかりました。

User-agent: Mediapartners-Google Disallow: /search Allow: /

DisallowがGooglebotによるウェブページのインデックス作成を妨げることは知っていますが、Disallow: /searchの使用方法がわかりません。

Disallow: /searchの正確な意味は何ですか？

unor · Accepted Answer

Disallowフィールドで、ブロックするURLのURLパスのthe先頭を指定します。

したがって、Disallow: /がある場合、すべてのURLパスが/で始まるため、 everything をブロックします。

Disallow: /aがある場合、/aで始まるパスを持つすべてのURLをブロックします。 /a.html、/a/b/c/hello、または/aboutのいずれかです。

同じ意味で、Disallow: /searchがある場合、文字列/searchで始まるすべてのURLをブロックします。たとえば、次のURLをブロックします（robots.txtがhttp://example.com/にある場合）：

http://example.com/search
http://example.com/search.html
http://example.com/searchengine
http://example.com/search/
http://example.com/search/index.html

次のURLは引き続き許可されますが、

http://example.com/foo/search
http://example.com/sea

Robots.txtは、文字列がディレクトリ、ファイルに一致するか、何にも一致しないかどうかを知りません。 URLの文字のみを調べます。

Stephen Ostermiller · Answer

他の回答では、このルールを適用するためにrobots.txtがどのように処理されるかを説明していますが、検索結果のクロールをボットに許可しないwhyに対処しないでください。

1つの理由は、検索結果の生成に費用がかかることです。ボットにこれらのページをクロールしないように指示すると、サーバーの負荷を減らすことができます。

検索結果ページも素晴らしいランディングページではありません。通常、検索結果ページには、サイトの10ページのリストがタイトルと説明とともに表示されます。一般に、ユーザーはこれらのページの最も関連性の高いページに直接アクセスすることで、より良いサービスを提供できます。実際、 Googleが言った彼らはあなたのサイトの検索結果がGoogleによってインデックスされることを望まない。それらを禁止しない場合、Googleはあなたのサイトを罰する可能性があります。

dan · Answer

OPは彼のコメントで "/ searchdirectory"のみに関心があることを示しているので、以下の私の答えは "search"ディレクトリだけを拒否することに関するものです。

以下は、ルートディレクトリにある「search」という名前のロボットsomethingをクロールしないようにするためのディレクティブです。

Disallow: /search

次のGoogleウェブマスターツールのヘルプドキュメントによると、ディレクトリ名の前にスラッシュ/を続ける必要があります。これは、他の次の参照元でも指定されています：

Googleウェブマスターツール-robots.txtファイルを使用してページをブロックまたは削除する

ディレクトリとその中のすべてをブロックするには、ディレクトリ名の後にスラッシュを付けます。Disallow: /junk-directory/

Robotstxt.org-何を入れるか

User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/ In this example, three directories are excluded.

ウィキペディア-ロボット排除基準

This example tells all robots not to enter three directories: User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /junk/

Googleによると（上記のように）、次のようにすると、ユーザーエージェントMediapartners-Googleを持つボットがルートディレクトリにある「検索」ディレクトリをクロールできなくなります。、ただし、他のすべてのディレクトリのクロールを許可します。

User-agent: Mediapartners-Google Disallow: /search/ Allow: /

John Conde · Answer

/searchディレクトリ以下のファイル（つまり、/searchのサブディレクトリ）をクロールしないようAdSenseに指示します。

alex jones · Answer

これは、ユーザーエージェントMediapartners-Googleが/searchの下のディレクトリにアクセスすることを許可されないことを意味します

/search/go blocked /search blocked / not blocked.