Googleは、ページの一意の部分をインデックス化し、重複するコンテンツを無視しますか？

Question

ページのコンテンツがサイトの他のページにもあるが、独自のコンテンツもある場合、Googleはどのように処理しますか？ Googleは：

ページ全体のインデックス作成（重複コンテンツを含む）
ページ上の一意のテキストのみにインデックスを付ける
ページのインデックスなし（一意のコンテンツも含めない）

明確にするために、私は他のサイトからコピーされたコンテンツではなく、ウェブサイト内で複製されたコンテンツについてのみ話します。

ここでは、同じページ内でコンテンツが重複している場合でもGoogleが一意のコンテンツをインデックスに登録すると仮定して、いくつかの質問に回答したため、質問します。しかし、私はこれが実際に真実であるという証拠がないことに気付きました。

これは、重複コンテンツに関するすべての質問で取り上げられていない重複コンテンツシナリオです。重複コンテンツとは何ですか。サイトでペナルティを受けないようにするにはどうすればよいですか

Mike · Answer

アクセスするほぼすべてのWebサイトには、少なくとも特定の割合の重複コンテンツが含まれます。この完璧な例は、すべてのコンテンツページに表示されるWebサイト固有のロゴで、コンテンツがWebサイト自体の一部であることを示します。この種のことは、Googleが完全にインデックス化するものです（もちろん、コンテンツの残りの部分はオリジナルでサイト固有のものであり、他のサイトから逐語的にコピーされるものではありません）。ヘック、グーグルがこれをインデックスに登録しなかった場合、数千の合法的なオンライン企業が、サイトがインデックスに登録されていないという大量の苦情を出します。

一方、各ページの違いがテキストの数単語よりも少ない重複コンテンツで主に構成されているページがある場合、Googleはそれを重複コンテンツとして非常にうまく処理でき、どの重複ページのインデックスを作成するかを決定しますもしあれば。

私が提案するのは、2ページ間の重複レベルを60％未満（理想的には）、または少なくとも80％未満にすることです。

ここにあるようなツールを使用すると： http://www.webconfs.com/similar-page-checker.php は、2つのページがどれほど似ているかを知ることができます。このツールで100％を目指してはいけません。

Evgeniy · Answer

Googleは、URLベースで特定のページの複製（または類似性）率を測定することでインデックス付けについて決定し、100％（または90％、またはX％-のみが正確に数を知っている）の重複を含むすべてのページにインデックスを付けます（ noindexのように何もなければ、それを防ぎます）。

重複したコンテンツを見つけるのは簡単な作業ではなく、ページクロームのため error-prone です。だからこそ、Googleはかなりすべてのページのインデックスを作成し、疑いなく複製されたページのみをキックアウトすると思います。

興味深いのは、内部で重複したコンテンツを含むページ（再び必要なものは100％未満）が、内部の競合他社のランキングを共食いできることです。

closetnoc · Answer

はい。できる限り早く知っていることを説明します。おそらくこれのいくつかを説明するだけで事が明確になるでしょう。

Googleの初期の頃、用語インデックスは、事実上、他のメトリックでdocIDとwordIDを使用して、用語インデックス内の用語（前方および後方）をドキュメントに結び付けるリレーショナルまたはリーフテーブルでした。セマンティックの伝統の一部は、ドキュメント内のポイントに関連する用語（Word）の位置を追跡することです。 Googleは、調査時に、ドキュメントの先頭（0）に基づく単一の位置メトリックのみをバイト単位で維持していました。これにはもちろんHTMLマークアップは含まれませんでしたが、初期にはHTMLヘッダー、フッター、サイドバーコンテンツなどが含まれていました。

このようにして、Googleは相互に関連する用語のパターンを探すことができます。つまり、ドキュメントは完全に複製する必要はありませんが、特定のメトリックガイドライン内でドキュメントが割合、比率などにかかわらず複製されたと判断するのはかなり簡単でした。

この方法の問題は、ドキュメントを再配置したり、スピナーを使用すると、これが簡単に無効になる可能性があることです。

単一のポイントからの用語関係や類似の用語、複数の用語などに関連するオントロジーの使用よりもセマンティクスが関与していることを考えると、比較的線形の比較モデルで取られたとしても完全ではないものの、重複したコンテンツがより簡単に見つかりました。

DOMを入力します。

HTML DOMモデルを使用すると、繰り返しコンテンツのセクションをより簡単に比較して、ヘッダー、フッター、サイドバーなどのテンプレートセクションを抽出することができます。コンテンツは、人々が認識するページコンテンツになりました。これらのテンプレート化されたコンテンツセクションはもちろんインデックスに登録されます（これは2015年にさえこの事実を証明したGoogleの欠陥に基づいています）が、検索マッチではほとんど無視されます。

さて、私たちはこれを理解しています。しかし、実際のコンテンツはどうでしょうか？

HTML DOMモデルは引き続き使用されます。各コンテンツDOM要素（主にヘッダータグ、段落、テーブルなど）について、さまざまなセマンティックアルゴリズム（いくつかは単数形、一部は組み合わせ）を使用して、それぞれが意味的に重み付けされ、スプレッドシート/並べ替えのテーブルと考えることができるマトリックスを作成します。これにより、各用語がアルゴリズムの重みとともにリストされます。セマンティクスは用語の直接の比較ではないため、車、自動車、車両などはすべて同じであり、これらの用語の複数のバージョンなどがあるため、どのアルゴリズムでも、スピン、再編成、重要なのは、複数のマトリックスをマトリックスのマトリックスにオーバーラップさせることにより、マトリックスがさまざまなサイズのコンテンツをカバーできることです。

マトリックスは、コンテンツセグメント（セマンティクスで定義されている）を表します。これは、HTMLの場合、ヘッダータグであり、ヘッダーに続く段落は、次のヘッダーで終了し、単一の段落とグループの両方として扱われます。コンテンツセグメントも単数の文にすることができますが、これについては後で説明します。ヘッダーの先頭、段落の先頭、ヘッダータグ間の段落グループの先頭などから用語の位置を使用すると、用語関係の元のパターンを引き続き使用できます。しかし、もっと重要なのは、マトリックス内でパターンも非常に簡単に見られることです。それらを認識するのにロケット科学者は必要ありません。セマンティックスコアは重複を排除します。

コンテンツセグメントも単文と同じくらい小さいことを知っているため、何か新しいことが起こっています。プログラミング言語の変数を使用して作成されているコンテンツを認識するために、コンテンツセグメントも新しい方法で検討されています。これはまだ発見するのがかなり簡単ですが、今のところ、私はまだこれを理解しています。まだセマンティクスに基づいていますが、それがどのように変化するかは、よりきめ細かなセマンティクス分析を意味する場合があります。ヘッダータグ、段落、および文が2015年から分析され、コンテンツの自動作成が行われます。そうしないと、他の重複コンテンツ分析が回避される可能性があります。この分析の結果は、私たちが話すようにサイトにペナルティを課しています。

はい。複製の影響に戻ります。

最初に覚えておくべきことは、Googleがページを取得すると、HTMLコード全体が参照用に保存されることです。これは、ページのキャッシュを作成するために使用されますが、実際には、Googleが戻って、ページを再取得せずにコンテンツに新しい分析または更新された分析を再適用できるようにします。

明らかに、最近までGoogleをエスケープしていたと思われるいくつかの非常に小さな例外がありますが、検索クエリが作成されたときにHTMLテンプレートコンテンツは完全に無視されます。 Googleが検索クエリをヘッダー、フッター、サイドバーなどに一致させることはほとんどありません。

Googleは、コンテンツの複製された部分は通常、スパムが問題ではないと仮定してインデックス付けされ、重み付けされると述べています。これは、ほとんどのサイトでは、特定のサイズ以上のサイトについて、あるページの一部を別のページに複製しないことはほぼ不可能だからです。同様に、これは引用としてコンテンツの引用されたセクションをカバーします。まだいい。

前述のように、Googleは変数ベースのコンテンツ作成のために、より小さなコンテンツセグメントを検討しています。これはトリッキーになる場所であり、このすべてがまだ解明されているわけではありません。一部の自動化されたサイトを見ると、ヒットしているサイトとヒットしていないサイトがあります。明らかに、これらのサイトはプログラムで生成され、非常に似ていますが、違いは何ですか？例としてWhoisサイトを見ると、まだあいまいです。リンクパターン、ソーシャルエンゲージメントなどによって定義されるページ作成の速度、リンク速度、サイトおよびページの権限など、私たちが知っている他の要因が引き続き役割を果たしていると思います。そのため、評価が低く、他の人がスパムとしてより強く見られる変数を入力することでコンテンツが促進される場合、評判が良く、堅実なメトリックを持つサイトは許されます。これは、コンテンツの品質と価値の基準がコンテンツ自体よりもユーザーによって測定されることを意味し、したがって許容性の基準が引き上げられます。この効果からの1つの救世主は、ユニークなコンテンツです。サイトは他のサイトよりも重要な価値を追加していますか？これがどのように測定されるかはまだ明らかではありませんが、現時点では、比較可能なサイトのフィールド内のコンテンツの一部の一意性はメトリックであると思われます。

泥だらけ？ここで良い仕事をしましたか？