web-dev-qa-db-ja.com

Googleボットはサイトのパフォーマンスに深刻な影響を与えています

約2,000のブログの世界からフィードを取り込むLinuxサーバー上に集約サイトがあります。 Wordpress 3.4.2にあり、別のサーバーで1時間に5回実行してストーリーを取り込み、このサイトのフロントページに公開するcronジョブがあります。これは、1台のサーバーに過度の圧力をかけなかったためです。ただし、1時間に数回アクセスするGoogleボットは、サイトのトラフィックが増加する朝と夕方にサーバーをひざまずかせます。ボットには、この時点でたどるべき30,000個のリンクがあります。フロントページから新しいストーリーを取得してそこで停止するために、ボットを調整するにはどうすればよいですか?

編集-サーバー構成の詳細:

このセットアップの方法は、すべての発行を処理するサーバーがAWSを介したアンマネージドインスタンスであるということです。 NFSサーバーをマウントし、RDSに接続してコンテンツなどを更新します。wp-adminリンクを検出し、そこにリダイレクトするプラグインを介してこの公開インスタンスにアクセスします。フロントエンドアプリサーバーもNFSをマウントし、RDSにデータを要求します。 WPスーパーキャッシュを持つのはこれだけです。..OSはAppサーバー上のUbuntuで、NFSはCentOsを実行します。フロントエンドはNginxで、公開サーバーはApacheです。

2
Lynn

Googleウェブマスターツールを使用して、Googleクロール頻度を下げます。

ウェブマスターツールにログイン>設定>クロールレート

5
Magellan

パフォーマンスに重大な問題があるようです。どういうわけか、ボットにnotにコンテンツのインデックスを作成してほしいとは思わないので、そこに行くつもりはありません...

絶対に最初にすべきことは、キャッシュを設定することです。 W3 Total Cacheは良いスタートです。以前はWP Super Cacheを使用していましたが、前者にはさまざまな異なる環境でキャッシュをセットアップするためのオプションが多くあります。たとえば、Amazon ElastiCache(memcached)と互換性があり、複数のアプリサーバーを実行する場合はおそらくこの方法でキャッシュする必要があります(以下を参照)。

Zend OPcacheを使用することも、CPU使用率を削減するための非常に良いアイデアです。

さらに、サーバー構成の明らかなボトルネックは次のとおりです。

  • NFS。これに関する詳細は提供していませんが、EC2を使用しているので、おそらくトラブルを求めているでしょう。
  • 単一のフロントエンドサーバーがある。トラフィックが十分に高いため、1つのインスタンスで提供できる制限に達しているようです。ほぼ確実に、より大きなインスタンスで、またはElastic Load Balancerの背後にあるより多くのインスタンスで、スケールアウトする時が来ました。
4
Michael Hampton

これを行う1つの方法は、ソースにアクセスしてGoogle Webmasterのツールに登録することです https://www.google.com/webmasters/tools/home?hl=en

次に、サイトを登録したら、サイトの[構成]メニューと[設定]に移動して、クロールレートを制限できます。

2
suitablyawesome

robots.txtの目的は次のとおりです。 http://www.robotstxt.org/

1
Tonny