web-dev-qa-db-ja.com

Webサイトへのボットビジットの防止

あるユーザーがツイート内で私のWebサイトのアドレスを共有するたびに、次のボットが私のWebサイトにアクセスします。

UnwindFetchor/1.0(+ http://www.gnip.com/)
ShowyouBot(http://showyou.com/crawler)
JS-Kit URL Resolver、 http://js-kit.com/
bitlybot
EventMachine
HttpClient etaURI API/2.0 + metauri.com

1分間に10回、これらのボットの1つが私のサイトに来て、コンテンツを取得します。私の質問は、これらのボットのIPをhtaccessで禁止したり、robots.txtでそれらの訪問を阻止すると、私のSEOに害を及ぼす可能性があるということです。または、Twitterの基本的な機能を妨害することはできますか?たとえば、ユーザーがURLを共有する場合、URLを短縮できなかったため、共有できません。または、Twitterで私のサイトが疑わしいなどと検出されますか?

3
trante

現代のインバウンドマーケティングは、Googleのスパイダー、またはGoogleとBing/Yahooによるインデックス登録だけに依存していません。 SEOとSMMがますます絡み合うにつれて、ますます多くのソーシャルメディアとソーシャル共有サービスが登場します。そのため、検索スパイダーではないクローラーが表示されます。

Twitterにリンクを投稿し、bit.lyで短縮されると、ページは次のようにクロールされます。

  • Twitterbot
  • バタフライ(http://labs.topsy.com/butterfly/)
  • Showyoubot(http://showyou.com/crawler)
  • UnwindFetchor(http://www.gnip.com/)
  • EventMachine HttpClient(リンクなし)
  • TweetmemeBot(http://tweetmeme.com/)
  • JS-Kit URLリゾルバー(http://js-kit.com/)
  • PercolateCrawler([email protected]
  • FlipboardProxy(http://flipboard.com/browserproxy)
  • Yahoo! Slurp(http://help.yahoo.com/help/us/ysearch/Slurp)
  • PaperLiBot(http://support.paper.li/entries/20023257-what-is-paper-li)
  • Kimengi(nineconnections.com)

一般的に何が起こるかです:

  1. メインのソーシャルメディアサイト(Twitter、Facebook、Reddit、Diggなど)はページをクロールして、ページのタイトル/見出し、メタの説明、場合によってはメタキーワードを取得し、特定の情報を自動入力します。ユーザー:リンクテキスト、リンクの説明、関連するタグ、サムネイル画像、作成者など。
  2. 第二に、リンクが共有されると、Twitter APIまたは同等の機能を使用する検索エンジンやその他のサービスがそれを見つけ、彼らもそれをインデックス/データベースに追加したいと考えています。検索エンジンの場合、検索ランキング/露出を直接改善します。別のソーシャルメディアサイトの場合、検索エンジンに関連しないオーガニックトラフィックが増加します。

    とにかく、コンテンツを分類/処理するために、ほぼ同じ情報でページをクロールする必要があります。トレンドのトピックを追跡したり、ソーシャルメディア分析を提供するために、コンテンツが分析される場合があります。 Flipboardおよび一部のエンタープライズソーシャルメディア管理プラットフォームの場合、代替インターフェイス(Flipboardのタブレット/モバイルアプリ、サードパーティのソーシャルメディアダッシュボードなど)を使用して表示できるように、コンテンツを再フォーマットする必要があります。同様に、これらのボットの一部は、ソーシャル共有APIを使用してコンテンツの配信を許可しています。

    いずれにせよ、これはあなたの露出を増やし、会話を容易にするので、ほとんどすべてあなたのサイトに適しています。

通常の状況では、Webサーバーはこれらのボットリクエストを処理するのに問題はないはずであり、これらのボットリクエストに対して何倍ものオーガニックトラフィックを受け取ります。ただし、実際に過負荷のサーバーを実行しており、これ以上効果的な最適化を行うことができない場合(クエリキャッシング、全ページキャッシング、バイトコードキャッシング、ブラウザーキャッシング、負荷分散、CDNまたはライトhttpdを使用したサービス提供)静的コンテンツ、データベースクエリや構造の最適化など)を実行すると、害を及ぼすことなくブロックできる可能性のあるボットがいくつかあります。

ほとんどの正当なボットには、UA文字列に関連付けられたURLがあります。このリンクは、ボットを誰がどのような目的で実行するかを示しているはずです。ボットが絶対に直接的または間接的にサイトへのトラフィック/露出に寄与していない場合は、気軽にブロックできます。たとえば、企業フォロワーがほとんどいない場合、特定のエンタープライズソーシャルメディアダッシュボードとソーシャル分析アプリをブロックできます。 SonyやGMがブランドや新製品に対するあなたの感情を知らなくても、あなたを傷つけることはありません。同様に、これらのボットのいくつかは、実際にシャットダウンされているサービスまたはすでにシャットダウンされているサービス用です(TweetMemeなど)。

ただし、ソーシャルメディアIDの管理とソーシャルメディア分析の監視にPercolateなどを使用している場合、ボットをブロックしたくないことは明らかです。そうしないと、サービスが適切に機能しません。

2
Lèse majesté