web-dev-qa-db-ja.com

すべてのロボットを許可するrobots.txt

robots.txtファイルには、サイトでインデックスを作成できないロボットのリストがあり、残りは他のすべてのロボットを許可する必要がありますが、本当の違いを知りたいこれらの2つの規則の間:

User-agent: *
Disallow:

この:

User-agent: *
Allow: /
4
Yasmina Saraya

Allowは、Wikipediaによると非標準です: http://en.wikipedia.org/wiki/Robots.txt

7
michael667
User-agent: *
Disallow: /

上記のコードは、URLパスに一致するものをクロールしないようロボットに指示します。上記の手順を使用すると、Googlebotの他の検索エンジンボットはWebサイト全体をクロールしません。

User-agent: *
Allow: /

上記は、すべてが許可されていることを示しています。 Googlebotを含むすべての訪問ボットは、ウェブサイトをクロールできます。

2
Nishi

すべてのクロールを許可するには、いくつかのオプションがあります。最も明確で最も広くサポートされているのは:

User-agent: *
Disallow:

言い換えると、「すべてのユーザーエージェントは何も禁止されていないため、すべてをクロールできます」という意味です。これは、 robotstxt.org にリストされている「すべてのクロールを許可」のバージョンです。


もう1つのオプションは、robots.txtファイルをnoにすることです。ロボットが/robots.txtで404エラーに遭遇すると、クロールが制限されていないと見なします。


robots.txtAllow:ディレクティブを使用することはお勧めしません。すべてのクローラーがそれらをサポートしているわけではありません。 Allow:ディレクティブとDisallow:ディレクティブの両方がある場合、最初または最後の一致ルールではなく、最長一致ルールが優先されます。これにより、プロセスが大幅に複雑になります。 「許可」を使用する場合は、 one from Google などのテストツールでrobots.txtファイルをテストしてください。

1