正規リンクを使用して、サイトをGoogle検索結果から除外する

Question

ウェブサイトのコピーが2つあります。www.example.comのライブサイトとdev.example.netのテストサイトです。（これはdifferent parent domainのサブドメインであることに注意してください。）両方のサイトはまったく同じURL構造と同じページコンテンツを持ちますが、実際のHTMLは異なります。 dev.example.netを検索結果に表示したくない。

<head>のdev.example.netの-すべての単一ページには、<link rel="canonical" href="https://www.example.com/PATH">があります（つまり、ユーザーに見せたいサイト上の同等のページへのリンク）。私の推測では、これにより、dev.example.netが検索結果にまったく表示されなくなります。それでも、それは永続的に表示されます。（会社名を検索すると、最初の結果としてwww.example.comが表示され、2番目の結果としてdev.example.netが表示されます。）

ここでやっていることを誤解していますか？ dev.example.netのページにnoindexタグを追加する必要がありますか？

Tim Grant · Accepted Answer

noindexを使用して、ページをGoogleのインデックスから除外します

Googleのインデックスから結果を除外する唯一の正しい方法は、noindexを使用することです。

Google（または任意の検索エンジン）の検索結果は、懸命のリスクがあるため、インデックスが付けられたアイテムで構成されます。 Googleは、インデックスからページを省略するよう通知するいくつかの方法を尊重しています。これらの方法を使用しない場合、ページが検索結果に表示されても驚かないでください。

短い答えはyesです。noindexを使用して、物事をインデックスから除外します。または、さらに良いことに、 X-Robots-Tag HTTPヘッダーを使用します（以下を参照）。

このためにrobots.txtを使用しないでください

robots.txtは、ページがスパイダーされないようにします。強力なバックリンクを持つ多くのクモのないページは、Googleの検索結果でランク付けが可能です。

ご覧になった方もいるかもしれませんが、この Moz.comの記事の最後の例のように見えます。

Googleの説明：

robots.txt Disallowは、結果にページが表示されないことを保証しません。Googleは、受信リンクなどの外部情報に基づいて、関連性があると判断する場合があります。ページのインデックス作成を明示的にブロックする場合は、代わりにnoindex robotsメタタグまたはX-Robots-Tag HTTPヘッダーを使用する必要があります。この場合、robots.txtでページを禁止しないでください。タグを表示して従うにはページをクロールする必要があるためです。

正規のURLはGoogleのインデックスから何も除外しません

正規URLは、参照元ページと参照先ページが同じコンテンツを表していることをGoogleに伝えます。これは、「複製または類似のコンテンツのリンク信号を統合する」、つまり、SEOに役立ちます。

しかし、特定のページからのトラフィックを実際に増やすには、 Googleが提案する：

これらのURLの1つを優先（標準）宛先として選択し、301リダイレクトを使用して他のURLから優先URLにトラフィックを送信することをお勧めします。サーバー側の301リダイレクトは、ユーザーと検索エンジンが正しいページにリダイレクトされるようにするための最良の方法です。 301ステータスコードは、ページが永続的に新しい場所に移動したことを意味します。

ただし、ユーザーがdev.サイトを表示できるようにする必要があるため、この301ソリューションは役に立ちません。

正規および代替URLに関する注意

Googleがトラフィックを非正規URLに送信することは完全に合理的であることに注意してください。同じコンテンツの異なるプレゼンテーションが異なるコンテキストで適切である場合があります。通常の「www。」サイトと、携帯電話向けに高度に最適化されたモバイル「m。」サイトの両方で共有するコンテンツを検討してください。ユーザーが検索フレーズに「PDF」を含めた場合、Googleは非標準のPDFバージョンを表示する場合があります。

しかし、なぜGoogleはあなたの「開発者」サイトを好むのでしょうか？

Googleのアルゴリズムでは、開発サイトに未承認のコンテンツが含まれている可能性がありますが、ユーザーもおそらくそうではありません。（また、あなたやあなたの上司がこれについてどう思うかはあまり気にしません。）

以下に、Googleが行うことの注意事項をいくつか示します。

Googleの報酬コンテンツの鮮度。開発サイトの変更頻度がはるかに高い場合（そうではないですか？）、それは肯定的なSEOシグナルである可能性があります。
Webの人々があなたの開発サイトを発見し、何らかの理由でリンクしている可能性があります。
開発サイトに大幅な技術的アップグレードがある場合、または本番サイトよりもトラフィックが少ない場合は、高速になる可能性があります（および Googleの報酬速度）。

HTTPヘッダーソリューションがメタタグよりも優れている理由

X-Robots HTTPタグを使用してnoindex命令を返す場合、HTTPファイルまたはその他のアーティファクトではなく、Webサーバーで構成できます。そのため、本番サイトにファイルをプロモートするときに何も変更する必要はありません。

closetnoc · Answer

サブドメインは独立したサイトであり、サイトとして扱うことができます。

できることは2つあります。

1]サブドメインのルートに次のようにrobots.txtファイルを作成します。

User-agent: * Disallow: /

このコードは、サイト全体へのアクセスを許可しません。

Robots.txtファイルを理解するのに役立つリンクを次に示します。

http://www.robotstxt.org/robotstxt.html

2]可能であれば、次のようにNoIndexメタタグを追加することをお勧めします。

<meta name="robots" content="noindex">

このコードにより、ページのインデックスが作成されなくなります。

NoIndexメタタグを理解するのに役立つリンクを次に示します。

https://en.wikipedia.org/wiki/Noindex

どちらか一方が動作するはずですが、多くの労力をかけずに両方を実行できる場合は、それが役立つ場合があります。オプション1を実装するのが最も簡単です。