web-dev-qa-db-ja.com

スクレイピングニュースコンテンツのSEOへの影響

私は金融のWebサイトを作成しています。コア機能とは別に、最新のニュースも表示したいと考えています。

これらのニュース記事は、評判の高いニュースソース(例:CNN)のRSSフィード(記事全体のスクレイピング)からスクレイピングされますが、投稿には元のソースへのrel=canonicalタグもあります。投稿のすべてのリンクは元のソースにリダイレクトされますが、ニュースはほとんどがWord-for-Wordで削られます。

それは私のSEOに悪影響を及ぼすでしょうか? robots.txtnofollowを使用することを検討すべきですか?ユーザーが使いやすいように、ニュース記事をキュレートしたいだけです。私たちのコアビジネスはニュースを表示していないので、これらの記事からSEOのメリットを得ることは本当にしたくありません。

1
Mohit Singh

rel=canonicalは良い考えです。これにより、検索エンジンはコンテンツの元のソースを知ることができ、コンテンツの配信によるペナルティのほとんどを防ぐことができます。

robots.txtにはnofollowディレクティブがありません。 robots.txtでこれらのURLをdisallowできます。そうすることは、Googleがあなたのサイトの重複したコンテンツを見ることさえ妨げるので賢明でしょう。もちろん、Googleがコンテンツを認識できない場合、rel=canonicalも認識されませんが、おそらくそれで問題ありません。

robots.txtの代わりに、ページでnoindexメタタグを使用して、Googleがインデックスに登録しないようにすることを検討できます。 Googleは、robots.txtによってブロックされたURLを時々インデックスに登録せず、それらのページのコンテンツを表示しません。クロールを許可しますが、noindexを使用すると、URLがGoogleの検索インデックスに表示されないようにする確実な方法です。

これによるあなたのサイトへの最大の脅威は、法的観点からです。コンテンツ作成者からコンテンツを配信するための適切なライセンスを取得してください。許可なくコンテンツをスクレイピングして公開している場合、ニュースサイトは満足せず、サイトをシャットダウンしようとします。ホストまたはGoogleにDMCA(デジタルミレニアム著作権法)の削除を申請する場合があります。

0