web-dev-qa-db-ja.com

robots.txtから特定のページを許可しない方法

非常によく似ていますが、目的が異なる2つのページをサイトに作成しています。 1つはユーザーにコメントを残してくれたことに感謝することで、もう1つはユーザーに購読を促すことです。

重複するコンテンツは必要ありませんが、ページを利用できるようにしたいのですが。サイトマップを非表示に設定できますか? robots.txtファイルでこれを行いますか?

Disallowは次のようになります。

禁止:/ wp-admin

次のような特定のページにどのようにカスタマイズしますか?

http://sweatingthebigstuff.com/thank-you-for-commenting

24
Daniel
Disallow: /thank-you-for-commenting

robots.txt

インスピレーションを得るために last.fm robots.txt file を見てください。

44
AlexanderMP

robots.txtファイルは正規表現を使用してページを照合するため、意図したよりも多くのページを対象としないようにするには、ページ名の最後に$を追加する必要がある場合があります。

Disallow: /thank-you-for-commenting$

そうしないと、ページ/ thank-you-for-commenting-on-this-tooも許可されなくなります

5

robots.txtファイルに拡張子付きの特定のページを追加することもできます。テストの場合は、テストページのパスを指定して、ロボットのクロールを禁止できます。

たとえば:

 Disallow: /index_test.php
 Disallow: /products/test_product.html
 Disallow: /products/     

最初の1つ Disallow: /index_test.phpは、ボットによるルートフォルダー内のテストページのクロールを禁止します。

2番目Disallow: /products/test_product.htmlは、「products」フォルダの下のtest_product.htmlを許可しません。

最後に最後の例Disallow: /products/は、フォルダ全体のクロールを禁止します。

3
Nikz

これは非常に単純です。許可しないページは、このファイルまたはフォルダのルートURLを指定するだけです。これをrobots.txtファイルに追加するだけです。

Disallow: /thank-you-for-commenting
1
Waqas Ahmad