web-dev-qa-db-ja.com

サイト全体をGoogleにブロックしてから例外をリストすることは可能ですか?

私は通常、robots.txtファイルのサブディレクトリを許可しません。他の方法でそれを行うことができるかどうか疑問に思っていました。それは可能ですか?

私の現在のrobots.txtは次のとおりです。

User-agent: *
Disallow: /example/
Disallow: /example/
Disallow: /example/
Disallow: /example/
Disallow: /example/
Disallow: /example/
Disallow: /example/
Disallow: yea.html
Allow: /
5
Renan

はい。最初にすべてを禁止してから、インデックスを作成するフォルダを許可できます。

User-agent: *
Disallow: /
Allow: /index.html
Allow: /example/
Allow: /example2/
Allow: /example3/

これが機能する理由は、Google(およびBing)がrobots.txtファイルを読み込むときにCSSスタイルの特異性ルールに従うためです。 Googleの robots.txtドキュメント から:

「...ディレクティブを許可および禁止する場合、[パス]エントリの長さに基づく最も具体的なルールは、より具体的でない(短い)ルールより優先されます。ワイルドカードを使用したルールの優先順位は定義されていません。」

彼らはそのページの例の表を与えます。ルールのorderは、ルールの解釈に違いをもたらさないことに注意してください。重要なのはlengthだけです。上記の例の「Disallow」ルールをファイルの最後に配置しても、意図したとおりに機能します。

robots.txtファイルをテストする を使用することを忘れないでください Googleウェブマスターツール

サイトのrobots.txtファイルをテストするには:

  1. ウェブマスターツールのホームページで、目的のサイトをクリックします。
  2. [サイトの構成]で、[クローラーアクセス]をクリックします
  3. まだ選択されていない場合は、[robots.txtのテスト]タブをクリックします。
  4. Robots.txtファイルの内容をコピーし、最初のボックスに貼り付けます。
  5. [URL]ボックスに、テスト対象のサイトをリストします。
  6. [ユーザーエージェント]リストで、必要なユーザーエージェントを選択します。
7
Nick