web-dev-qa-db-ja.com

robots.txtを使用して、Googleが一部のフォルダーにアクセスできるようにすることはできますが、それ以外はすべて禁止しますか?

Googleボットがindex.phpと一部のフォルダーのコンテンツのみをクロールできるようにします。それはうまくいくでしょうか?

User-agent: *

Allow: /index*.php
Allow: /folder1/
Allow: /folder2/
Allow: /folder3/
Allow: /folder4/

Disallow: /

Googleが次のようなURLをクロールするという考え方です。

  • http://example.com/folder1/discussionA/topic/
  • http://example.com/folder1/discussionB/topic/
  • http://example.com/folder1/discussionC/topic/
  • http://example.com/folder2/discussionD/topic/

他のすべてを除外します。

2
user3512251

私は通常、彼らにクロールさせたくないものに焦点を当てていますが、あなたのサンプルは目標を達成しているように思えます。ただし、最初の行と2番目の行の間のスペースを削除します。

User-agent: *
Allow: /index*.php
Allow: /folder1/

Mozillaが詳細に説明しています

1
elbrant