web-dev-qa-db-ja.com

Robots.txtで、インデックスページを除くすべてのページを禁止するにはどうすればよいですか?

Googleでインデックスページのインデックスを作成したいが、他のページのインデックスは作成しない。

User-agent: *
Disallow: /

これまでのところこれがあります。しかし...これを行うと、Googleはインデックスページのインデックスを作成しません。 Googleで自分の名前を検索すると、説明のない最初の結果として「www.mydomain.com」だけが表示されます。

代わりに、メインのインデックスページにメタ説明タグも付けてGoogleにインデックスを作成してもらいます。

7
TIMEX

特にGoogleの場合、次のルールがトリックを行います。

User-Agent: *
Allow: /$
Disallow: /

詳細については、 サポートされているrobots.txt構文のGoogleのドキュメント を参照してください。ただし、中央の行は2つの理由で非標準であることに注意してください。1つ目はAllowディレクティブです( basic robots.txt standardDisallowのみをサポートします)。非標準のURL終了アンカー$を使用します。ただし、他のいくつかの主要な検索エンジン Bingを含む は、ほぼ同じ構文をサポートしています。

8
Ilmari Karonen

Googleおよびその他の検索エンジンは、Allow:...に加えてDisallow:ステートメントをサポートしますが、異なる検索エンジンスパイダーでは異なる動作をする可能性があり、他のタイプのサイトスクレイパーではサポートまたは強制されません。

ドキュメント ここ

3
mikegreiling

Googleでページを許可しない理由は何ですか?

とにかくこれを行うことができます:

Disallow: /
Allow: /index.html
0
PaperThick

私はこのように使用します:

User-agent: Yandex
Allow: /index.html
Disallow: /

User-agent: Googlebot
Allow: /index.html
Disallow: /
0
trante