web-dev-qa-db-ja.com

robots.txtを構成して、いくつかのディレクトリを除いてサイトのクロールを許可するにはどうすればよいですか?

Robots.txtの最適な初期設定または一般的な設定は、検索エンジンがサイトを通過できるようにするためですが、いくつかのフォルダーを制限することはできますか?

常に使用すべき一般的な設定はありますか?

7
Mike

Googleウェブマスターツールには「クローラアクセス」というセクションがあります

このセクションでは、robots.txtを非常に簡単に作成できます

たとえば、ブログ以外のすべてを許可するには、test your robot.txtというフォルダーを次のようにします。

User-agent: *
Disallow: /Test
Allow: /
3
corymathews

特別な要件がない場合の最良の構成は、まったく何もありません。 (少なくとも404がエラーログをいっぱいにしないように、空のファイルを追加することをお勧めします。)

サイト上のディレクトリをブロックするには、「Disallow」句を使用します。

User-agent: *
Disallow: /example/

以前の「Disallow」句をオーバーライドする「Allow」句もあります。したがって、「example」フォルダーを許可していない場合は、「example/foobar」などのフォルダーを許可できます。

Robots.txtは、必要に応じてこれらのページにアクセスするユーザーを禁止しません。したがって、一部のページを秘密にしておく場合は、何らかの認証(ユーザー名/パスワード)の背後にそれらを隠す必要があります。

多くのrobots.txtファイルにある可能性が高いもう1つのディレクティブは「Sitemap」で、XMLサイトマップがある場合はその場所を指定します。独自の行に配置します。

Sitemap: /sitemap.xml

official robots.txt site には、さまざまなオプションに関する詳細な情報があります。しかし、一般に、大多数のサイトではほとんど構成は必要ありません。

1
DisgruntledGoat

robots.txtファイル について知っておく必要があるすべてのものは次のとおりです。

0
Jason