web-dev-qa-db-ja.com

robots.txtでAllowまたはDisallowディレクティブを使用して、Googlebotがサイト全体をクロールできるようにする必要がありますか?

User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /

Robots.txtファイルでこのコマンドを使用します。しかし、私はこれが正しいとは思わない。適切なコマンドは何ですか? robots.txtでこれを行わないように指示された場所で見つけた記事

#Code to not allow any search engines!
User-agent: *
Disallow: /

また、jsファイルとcssファイル以外のGooglebotを禁止する必要があることもわかりました。

User-agent: Googlebot
Allow: /*.js*
Allow: /*.css*
Allow: /google/

それでは、正しい方法は何でしょうか?

1
Mourin

私はこの質問にかなり戸惑っていました。もし私があなただったら、単一のユーザーエージェントを使うほうが良いと思います。すべてのボットを示すために*を割り当てるとしましょう。その後、これらのボットがアクセスするはずのないディレクトリに対してdisallow関数を使用できます。

User-agent: *
Disallow: /folder1/
Disallow: /folder2/

また、CSSと一部のスクリプトをブロックすると、Googleがサイトを認識する方法に影響することに注意してください。レスポンシブテーマにCSSがある場合、サイトはGoogleが考慮しているモバイルフレンドリーな要素を失う可能性があります。また、Google検索バーでドメインで検索を実行し、ボットがそれを見ることができるかどうかを確認してください。

1
BryrDe

GooglebotはAllow:ディレクティブを理解する必要がありますが、それはクロールを許可する標準的な方法ではありません。クロールを許可する標準的な方法は、何も許可しないことです。私は使用します:

User-agent: *
Disallow: /

User-agent: Googlebot
Disallow:

これは、公式robots.txtサイトの「すべてのロボットに完全なアクセスを許可するには」の例に記載されています。 http://www.robotstxt.org/robotstxt.html

0