広告主を傷つけず、ウェブマスター向けガイドラインを遵守する方法

Question

広告主が人為的な印象に害されないように、悪いボットのトラフィックを除外する新しい方法を探しています。

https://support.google.com/adsense/answer/2660562 のAdSenseサポートサイトを見ると、

ボットや欺de的なソフトウェアなどの自動化された手段を通じて生成される人工的な印象やクリックは禁止されています。自動化されたトラフィックは、発行者が生成するか、購入したトラフィックを介して受信できます。トラフィックソースを使用する前に、トラフィックソースを確認することが重要です。また、広告リンクをクリックする可能性があるため、サイト内のリンクをチェックするプログラムにも注意してください。

だから私は、ユーザーがクリックするのに苦労するオフスクリーンにある途方もなく小さなリンクを作成し、IPアドレスやブロックなどのロボットに関する情報を収集する特別なページを指すようにすることをお勧めしますロボットがサイトにさらにアクセスすることはできませんが、 https://support.google.com/webmasters/answer/35769?hl=en にアクセスすると、次の内容を含むテキストが表示されます。

品質ガイドライン-特定のガイドライン

次の手法を避けてください。

元のコンテンツがほとんどまたはまったくないページの作成

Cloaking

非表示のテキストまたはリンク

そのようなリンクはウェブマスターのガイドラインに違反することを教えようとしていますリンクにアクセスしているのにサイトにアクセスしているが、その場で他の不正なボットをブロックしたい場合はもちろん、ユーザーにランダムテキストを表示したくないため、非表示のテキストまたはリンクに違反します。子供はサイトにアクセスし、リンクがすべてについて何であるかを知りたいと思うかもしれません。私はピリオドだけをアンカーテキストとして使用するかもしれません。

ランダムなIPアドレスのセットを手動でブロックすることなく、ボットを排除し、ウェブマスター向けガイドラインとアドセンスに準拠するための最善のアプローチは何でしょうか？私のアイデアを続けてロボットの隠しリンクを作成する必要がありますか、それともGoogleがもっと受け入れるもっと良いアプローチがありますか？

closetnoc · Answer

まず最初に：

必要なことを行う既存のツールがあるかどうかを確認します。 ModSecurityまたは別のツールがこれを行う可能性があります。私はリストを持っていないので、ウェブ上でリストを検索するのはあなたが思うほど簡単ではありませんが、この目的のためだけに本当に良いツールがいくつかあります。最初にこのルートを取ることをお勧めします。

AdSenseの見積もりは、アクションyouが実行するものを指していることに注意してください。私が使用できるテンプレートのセットは、Google広告や分析を表示せず、監査を行うボットでライブサイトを叩く必要がある可能性があります。通常、ライブサイトから直接取得した目的のために、サイトのローカルコピーを保持します。制御できないボットは参照しません。人々がトラブルに陥る1つの方法は、SEOまたは他のサイト監査を行うか、トラフィックを購入することです。あなたがあなたのサイトに対して行動している場所を除いてこれらのことを避けてください、そして、危害を防ぐためにコントロールを置くことができます。

Googleのルールに違反せず、AdsenseやAnalyticsで問題を引き起こしたり、少なくともユーザーを混乱させたり害を与えたりするアンチボットメカニズムを作成することは非常に可能です。存在するサイトの単純な拡張である場合があります。

リンクを非表示にする必要も、ページを薄くする必要もありません。

Googleは、1つの薄いページを持つためにサイトを平手打ちしません。また、制御できないボットに人々を平手打ちすることもありません。 Googleは、これらのボットが誰に属しているかを完全に認識しており、不正なボットとスクレイパーサイトを追跡しています。 Googleは、既に見られたパターンに沿った活動に対してあなたに罰則を科しません。

リンクを非表示にする必要は必ずしもありません。 JSバグを使用するか、PHPを使用してデータベースに情報を収集すると、ボットトラフィックの構成を確認できます。コードベースの画像も作成できます。同様に、ユーザーがサイトのrobots.txtによって制限された部分にクリックしない可能性が高いリンクをお勧めします。

追跡します：

不正アクセス。（robots.txtによる制限）
アクセス速度。
期間ごとのアクセス数。
画像および場合によってはJSスクリプトにアクセスするかどうか。
Robots.txtにアクセスするかどうか。

次のものも収集する必要があります。

エージェント名。（正直なボットの場合）
IPアドレス。
ドメイン名。

サイトのアクセス数とアクセス速度を把握する必要があります。 .8秒のアクセス速度は、人間によると言われていますが、ネットワークの遅延時間のために、これらの時間は.4秒と短い場合があります。平均を追跡する必要があります。どのアクセス速度の平均が許容範囲であり、特定のユーザーの通常のページ数を決定する必要があります。ボットは親指のように突き出るので、ユーザーとボットの間のデータには灰色の領域があり、トラブルを回避できます。

Robots.txtがアクセスされているかどうか、およびそれが守られているかどうかを追跡する必要があります。このために、ログファイルをトロールする必要がある場合があります。ただし、ファイルの代わりにrobots.txtを表示するコードを使用することは可能です。

常にIPアドレスを取得する必要があります。ドメイン名がIPアドレスと逆にならない場合、有効ではない可能性があります。マシン/ホスト名と同様に無効なドメイン名が使用されることに注意してください。調査のために、IPアドレスとドメイン名を一緒に保存します。

不正なボットは、多くの場合、非購読者のIPアドレスブロックに由来しますが、排他的ではありません。加入者ブロックは電話会社です。非サブスクライバーブロックは、多くの場合WebホストIPアドレスブロックです。テレコブロックは、中国やロシアなどの場所から使用される可能性があります。ブラックリストに表示される非サブスクライバーIPアドレスブロックと、限られた数のサブスクライバーブロックを追跡できます。ホワイトリストも作成する必要があります。明らかに、検索エンジンをホワイトリストに入れたいと思うでしょう。

最後に、本当に悪いボットは決して有効なエージェント名を使用しません。しかし、望ましくないが正直なボットはそうします。誰であるかについて正直な既知のボットを除き、エージェント名に対してアクションを実行しないでください。エージェント名は信じられないほど信頼性が低いため、自動化された意思決定では、正直な不要なボットを除き、エージェント名を完全に無視します。

1つの警告：サイトの雰囲気をつかむために最初にのみ情報をキャプチャし、一定期間アクセスをブロックしないでください。そこから、アクセスをブロックするときは注意が必要ですが、どのアクセスが受け入れられるかを把握する必要があります。これは心の弱い人にとっては仕事ではありません。あなたはコードを研究して書くことになります。システムをシンプルに保ち、考え抜いてください。

Googleが不正なボットに気付かないようなページを作成し、サイトへのアクセスを完全に拒否したい場合があります。 404エラーも適切な代替手段です。 1つのオプションは、サイト外へのリダイレクトを提供することです。私のお気に入りのアドバイスは、サイトにアクセスしているドメイン名またはIPアドレスにリダイレクトすることです。結果を歪めたり、広告主に胸焼けを引き起こしたりしないように、提示するページについては、Google AdsenseまたはAnalyticsがないことを確認してください。これは、比較的裸のHTMLページで簡単に実行できます。

このようなシステムを作成することには、いくつかの利点があります。

サイトへのスパムリンクは、時間の経過とともに減少します。
スクレーパーサイトページは、それが問題になる場所を減らします。
一部の不正なボットは、サイトへのアクセスを完全に停止します。
Google Analyticsがよりきれいになります。
Google Adsenseの表示回数が減り、CTR率が改善する場合があります。