Googleは、GitHubの重複したコンテンツをナレッジベースから罰しますか？

Question

他のユーザーがドキュメントを改善、編集、追加できるように、GitHubに各ドキュメント記事のコピーが必要です。承認された変更は、ナレッジベースフォーラムで公開されます。

GoogleはGitHubのファイルとコンテンツをクロールしますか？ GitHubと私のサイトで重複したコンテンツに対して罰せられますか？

MS Azureのドキュメントからアイデアを得ました。このページの最後までスクロールすると- http://Azure.Microsoft.com/en-us/documentation/articles/virtual-machines-set-up-endpoints/ が表示されますGitHubの記事に貢献するオプション。

inkovic · Accepted Answer

理想的にはありません。 very罰せられるのは非常に困難です（サンドボックス、インデックス解除）。

コンテンツが重複していると、コンテンツの「価値を下げる」可能性があり、オーガニックな場合よりも重みが少なくなりますが、Googleの仕事です元のコンテンツを識別するため他のページの価値を下げます。

ウェブサイトに正規リンクを設定すると、このURLがコンテンツの元のソースであることを検索エンジンに伝えることができます。

<link rel="canonical" href="http://example.com/document">

ヘッダーの<link>属性を制御できない外部Webページについては、Googleなどの検索エンジンはinfer元の発行者を指定する必要があります。

これがインデックス作成、関連性、ページ構造などの日付によるものかどうか。多くのGithubページには、Githubでソースコードが完全に利用可能でインデックス付けされているため、 Githubのアーキテクチャ、コンテンツパターンなどに基づいて、Googleがソースコンテンツの計算を行えると自信を持って推測できます。

シンジケーションはWebの通常の部分であり、Googleは非常にインテリジェントです。 Mashable記事のコンテンツのこの例を見てください：

-site:mashable.com/2015/02/05/whatsapp-testing-voice-calling/ "It's not clear when the feature may be rolled out more widely or when the app's iPhone users will be able to use it."

あなたが見ることができるように、何百もの逐語的なコンテンツリッピングがあります-Mashableを発行者として害することはありません。

rel=syndicationのようなものが仕様に完全に受け入れられるまで、このようなケースは本当に "Googleに任せましょう"であり、ウェブサイトのコンテンツのみを本当に制御できます。

最後に、why重複するコンテンツペナルティが存在し、誰がターゲットになっているかを理解する必要があります-もともとは、システムを意図的にゲームにしようとしていた自動コンテンツファームやコンテンツスクレイパー/スピナーを軽視するために策定されました。

これはあなたではありません。

Googleがウェブにインデックスを付ける最新の方法は、通常、値を取得する最初のインデックスページです（つまり、firstプレスリリースが表示され、400個のクローンが省略されます）。