web-dev-qa-db-ja.com

Googleがサイトリンクに誤った古くなったサブドメインページを表示しないようにする方法

ドメインexample.comには、a0.example.comとa1.example.comの2つのサブドメインがあります。これら2は製品画像専用です。ここに保存されている画像はa0.example.com/var1/var2/prod_id_img_1.jpgのようにアクセスされ、www.example.comにリストされている製品からリンクされています。これらのサブドメインの他の使用法はありません。

リリース前には、(a0 | a1).example.comに「Coming Soon」というページがありましたが、後で削除するのを逃しました(メインサイトからはアクセスできませんでした)。

ここで、ドメイン「example」を検索すると、最初のサイトリンクは「Coming Soon」であり、a0.example.comへのリンクです(表示されている他の5つのサイトリンクが有効です)。

質問は次のとおりです。

  1. このページを適切に削除して、Googleサイトリンク(および他の検索がある場合)に表示されないようにするにはどうすればよいですか? 404ステータスを有効にするためにそれを削除するだけですか、410を実行する必要がありますか、または適切な削除のために何かを行う必要がありますか?

  2. Nginxログをスキャンすると、Googleボットが定期的に(a0 | a1).example.comのサイトマップを探していることに気付きます。ここでGoogleボットがサイトマップを探しているために明示的な設定がありませんか、またはこの動作は一種の標準であり、心配する必要はありませんか?

  3. ウェブマスターには、example.comプロパティとwww.example.comプロパティがあります。 example.comは構成されていませんが、www.example.comは正常に機能しています。 example.comプロパティを使用して(s0 | s1).example.comの使用に役立つ何かを行う必要がありますか?

よろしくお願いします。

1
Ethan Collins

いくつかのオプションがあります。

  1. すべてのリクエストを削除して404エラーを発行することを許可しますが、これが各サブドメインのルート内のindex.htmlである場合、セキュリティ上の理由からこれを行わず、ファイルを保持することを強くお勧めします。

  2. 各サブドメインWebスペース内のrobots.txtファイルでページを除外します。次に、各サブドメインWebルート内のindex.htmlファイルを除外するコードの例を示します。

    User-agent: *
    Disallow: /index.html
    
  3. HTMLヘッダー内でnoindexを使用します。 HTML <head>タグ内に配置するサンプルコードを次に示します。

    <meta name="robots" content="noindex">
    
  4. ページのリクエストをサイトのホームページにリダイレクトします。これを行うためのサンプルコードを次に示します。これを各サブドメインWebルート内の.htaccessファイルに配置できます。 (Apacheを想定)

    Redirect permanent /index.html http://www.example.com/
    
1
closetnoc