web-dev-qa-db-ja.com

デフォルト設定のApacheディレクトリページ=重複コンテンツ?

各アクセス試行でランダムな数のスラッシュが使用されている場合、Googleまたは他のサービスがApacheフォルダページを重複コンテンツとして扱うかどうかを把握しようとしています。たとえば、次の4つのURLは、まったく同じファイルリストを生成します。

http://example.com/folder
http://example.com//folder
http://example.com/folder/
http://example.com/folder//
http://example.com//folder///

もしそうなら、上記のURLを1つだけにリダイレクトするApacheモジュールを作成する方が良いでしょうか、ディレクトリリストを再現するモジュールを作成する必要がありますか?この問題を解決するために使用できますか、または何もせずに、Googleがディレクトリリストを通常のWebページとは異なる方法で扱うと仮定できますか?

コンピューティングの知識のない一部のクライアントはアクセスを必要とするため、ディレクトリリストを無効にしたくありません。

1
Mike

潜在的に、複数のURL(つまり、複数のスラッシュ)で同じリソースにアクセスできると、コンテンツが重複します。ただし、これが本当に重複したコンテンツかどうか問題は別の問題です。

それが「問題」であるためには、検索エンジンはクロールを開始する前にこれらのURLの参照を見つける必要があります。そして、優先URLとの競合を開始する前に、これらの「不正な」URLのかなりの数が必要になる可能性があります。

サイトがこれらの不正なURLを生成(およびリンク)していない限り(これは間違いなく修正する必要があります)、おそらくneedは何もしません。

これらの不正なURLがアクセスされているかどうかは、アクセスログから確認できます。

各アクセス試行でランダムな数のスラッシュが使用される場合。

これはどのように発生しますか?これは非常にありそうにない。ログでこれを確認した場合、不正なボットの可能性を疑い(不正なスクリプトを割引いた後)、要求のブロックを検討します。

この問題を解決するために使用できる特別なApacheディレクティブはありますか

私が知っている単一のApacheディレクティブはありません。 Apacheは、resourceを要求するときに、スラッシュを(舞台裏で)単に「折りたたみ」ます。スラッシュはまだURLに存在します。しかし、「受け入れられた解決策」とは何でしょうか?このような不正なリクエストのリダイレクトと拒否の両方が有効である可能性があります。

rel="canonical" HTTP応答ヘッダーを設定して、あいまいさを解決することもできます。

googleがディレクトリリストを通常のウェブページとは異なる方法で処理すると仮定しますか?

WebページはWebページですが、「ディレクトリ一覧」はとにかく低品質(コンテンツ?)と見なされる可能性が高く、ユーザーが特にこれを探している場合にのみ、SERPに返されます。それでは、SERPに表示されるかどうかにかかわらず、とにかく問題にならないでしょうか?

1
MrWhite