web-dev-qa-db-ja.com

ボットを禁止すると、検索エンジンでサイトを見つけにくくなりますか?

Apache 2を実行していますが、ページビューの大部分はボットからのものです。それらのほとんどは、GoogleやBingなどの正当なものです。

ログを解析し、取得した人間の訪問者数に関する正確な統計を取得したいので、一時的にrobots.txtを更新して、すべてのページでボットを禁止しました。ボットへのアクセスを防ぐのにこれは部分的にしか効果がないことは知っていますが、それで問題ありません。

ボットを許可しないと、このサイトを検索するユーザーにどのような影響がありますか?ユーザーがGoogleでページを見つけられないようにしますか?

7
Tensigh

ボットを禁止すると、検索エンジンがサイトのコンテンツを取得できなくなります。

最終的には、どのキーワードにもランク付けされません。 Googleでページを見つけることはほとんど不可能です。紹介トラフィックは得られますが、オーガニックトラフィックは得られません。

注:Robots.txtはボットを禁止していませんが、サイトのインデックス作成とクロールを行わないよう依頼します。 Google、Yahoo&Bingのような主要な検索エンジンボットはどれですか。

13
Sidh

ボットの禁止は実りのない活動です。 robots.txtに従う唯一のボットは、GooglebotやBingbotなどの有用なボットです。悪意のあるボット、またはより巧妙でない検索サービスのボットは、robots.txtを無視します。

ボットを禁止することは、主要な検索プロバイダーですべてのページのランキングを失う確実な方法であり、ログにはまだボットのトラフィックがいっぱいです。

21
Chris Marisic

Googleは、robots.txtで無視されたページを引き続きクロールし、 robots.txtでURLをブロック および Googleはrobots.txtを無視します

3
Andrew Kelly

検索エンジンはサイトの内容を確認するためにロボットを送信しないため、検索エンジンでサイトを見つけることが非常に困難または不可能になる可能性があります。彼らはあなたがどんな言葉を使っているかわからないので、あなたのサイトがどんな検索に関連しているのかを伝えるのは難しいでしょう。

ただし、特に上位のサイトにサイトへのリンクがある場合は、検索結果にサイトが表示される可能性があります。 Googleやその他のエンジンは、リンクからの情報のみを使用して、結果ページにサイトを表示することを決定する場合があります。

3
bdsl

サーバーログからのデータは制限されており、ボット、キャッシング、CDNなどの要因により、信号対雑音比が高いことが避けられません。
ページビューの分析は、ページタグベースの分析のタスクです。

1
Adria

正しい答えは、robots.txtを混乱させず、代わりにログを解析して、コメントに記載されているUser-Agentヘッダーを調べることです。 Google、Yahooなどは、このヘッダーを使用してボットとして自身を識別する必要があり、robots.txtを介してボットを拒否することは、検索エンジンのランキングでトラックを運転するようなものです。 @adriaが言ったように、あなたのためにこれを行うことができるツールがあります。非常に人気のあるものは Googleアナリティクス で、これが クローラートラフィックの処理 です。

0
ErlVolton

あなたの述べた意図は

私が得る人間の訪問者数に関する正確な統計を取得し、

適切な解決策は、 Google Analytics 、または New Relic などのサービスを使用することです。サインアップしたら、JavaScriptスニペットをページに挿入します(wordpressは、これを自動的に実行することも、プラグインを使用して実行することもできます)、監視サービスに情報を送信します。このようなサービスを設定すると、訪問者に関する豊富な情報が得られます。 Googleアナリティクスは、サイトとのユーザーインタラクションを追跡する詳細が非常に優れています。

これらのサービスは、実際の人間のみを追跡するように実装されており、既に十分に機能しているものを再実装しようとするのは愚かであり、非常に便利であるため、ほとんど愚かです notこのようなサービスを使用します。

0
Blake Walsh