web-dev-qa-db-ja.com

Googleボットによって数千万ページのインデックスが作成される方法

現在、800万のユニークなページがあり、すぐに約2,000万、最終的には約5,000万以上に成長するサイトを開発しています。

批判する前に...はい、ユニークで有用なコンテンツを提供します。パブリックレコードから生データを継続的に処理し、データスクラビング、エンティティロールアップを実行します。 、およびリレーションシップマッピングにより、質の高いコンテンツを生成することができ、データの幅の一部dueで非常に便利でユニークなサイトを開発できました。

PRは0(新しいドメイン、リンクなし)であり、1日あたり約500ページの速度でスパイダーが発生しており、これまでに約30,000ページのインデックスが作成されています。このレートでは、すべてのデータのインデックス作成に400年以上かかります。

2つの質問があります。

  1. インデックス作成のレートはPRと直接相関していますか?つまり、PRの良い古いドメインを購入することで、実用的なインデックス作成レート(1日あたり100,000ページ程度)に到達できるほど十分に相関しています。
  2. インデックス作成プロセス自体を支援することに特化したSEOコンサルタントはいますか。そうでなければ、SEO、on-pageで非常にうまくいっています。さらに、「ロングテール」キーワードフレーズの競争は非常に低く、そのため、私たちの成功は主に索引付けされたページの数にかかっています。

私たちの主要な競合他社は、Alexa 2000のようなランキングとともに、わずか1年で約20 MMページのインデックスを作成しました。

私たちが持っている注目すべき品質:

  • ページのダウンロード速度はかなり良い(250-500ミリ秒)
  • エラーなし(スパイダーされたときに404または500エラーなし)
  • googleウェブマスターツールを使用して、毎日ログインします
  • 適切なURL
  • サイトマップを送信するのが怖いです。一部のSEOコミュニティの投稿では、数百万ページの新しいサイトが提案されており、PRは疑わしくありません。監視の増加を回避するために、 大規模サイトの段階的なオンボーディングについて話すMatt CuttsのGoogleビデオ もあります(ビデオの約2:30)。
  • クリック可能なサイトリンクは、4ページ以下の深さ、通常は1ページに250(-ish)個以下のすべてのページを配信します。
  • 内部リンクのアンカーテキストは論理的であり、詳細ページのデータに階層的に関連性を追加します。
  • 以前は、ウェブマスターツールでクロールレートを最高に設定していました(最大で2秒ごとに1ページのみ)。私は最近、「Googleに決定させる」ことを勧めました。
12
Chris Adragna

いくつかの潜在的な戦略:

  • Googleウェブマスターツールを使用すると、クロール速度の向上をリクエストできます。まだ行っていない場合は、それを試してください。
  • ナビゲーションアーキテクチャをもう一度見て、より多くのコンテンツへのアクセスを改善できないかどうかを確認してください。ユーザーの観点から見てください:ユーザーが特定の情報を見つけることが難しい場合、検索エンジンにとっても難しいかもしれません。
  • 一貫性のないURLパラメーターまたはスラッシュの不適切な使用のために、コンテンツが重複していないことを確認してください。重複するコンテンツを排除することにより、Googlebotが既にインデックスに登録されているもののクロールに費やす時間を削減します。
  • 可能な限り、コンテンツ内で関連コンテンツリンクとサイト内リンクを使用します。
  • 一部のリンクをランダム化します。ランダムな内部コンテンツを持つサイドバーは、使用するのに最適なパターンです。
  • 日付と他の microformats を使用します。
  • 可能な限りRSSフィードを使用します。 RSSフィードはサイトマップとほぼ同じように機能します(実際、ウェブマスターツールではフィードをサイトマップとして送信できます)。
  • サイトマップについては、 この質問 をご覧ください。
  • コンテンツへの外部リンクを取得する方法を見つけます。これにより、インデックス作成のプロセスが加速される場合があります。コンテンツの種類に適している場合は、ソーシャルやメールで簡単に共有できるようにすることが役立ちます。
  • データとデータへの外部リンクの使用を奨励するAPIを提供します。データ使用の要件として帰属リンクを設定できます。
  • コミュニティを受け入れます。適切な方法で適切な人に手を差し伸べると、ブログやTwitterを介して外部リンクを取得できます。
  • データの周りにコミュニティを作成する方法を探してください。ソーシャルにする方法を見つけてください。 API、マッシュアップ、ソーシャルウィジェットはすべて役立ちますが、ブログ、コミュニティショーケース、フォーラム、および ゲームの仕組み も参照してください( このビデオ も参照)。
  • インデックスを作成したコンテンツに優先順位を付けます。そのように多くのデータがあれば、そのすべてが絶対に不可欠というわけではありません。最も重要なコンテンツ、たとえば、最も人気のあるコンテンツ、ROIを獲得できる可能性が最も高いコンテンツ、最も有用なコンテンツなどについて戦略的な決定を下し、そのコンテンツが最初にインデックスに登録されるようにします。
  • 競合他社が何をしているかを詳細に分析して、コンテンツのインデックスを作成します。サイトのアーキテクチャ、ナビゲーション、外部リンクなどを見てください。

最後に、私はこれを言う必要があります。 SEOとインデックス作成は、ビジネスサイトを運営するための小さな部分にすぎません。 SEOのためにROIに集中しないでください。 Googleからのトラフィックが多い場合でも、変換できないかどうかは関係ありません。 SEOは重要ですが、全体像を把握する必要があります。

編集

ユースケースの補遺として、各個人またはビジネスに対してレビューまたは推薦状を提供することを検討できます。また、StackOverflowのようなユーザーバッジを配布すると、少なくとも一部のユーザーがサイトの自分のプロファイルにリンクするように誘導できます。これにより、外部のディープページへのリンクが促進されます。これは、インデックス作成を迅速に行うことを意味します。

19
Virtuosi Media

Googleボットによってインデックス化された数千万のページを取得する方法は?

深夜のコンテンツ(特に、より深いコンテンツを指すサイトマップページまたはディレクトリインデックス)へのインバウンドリンクが、同様の大規模なサイトから追加された場合、一晩で起こることはありませんが、より多くのページがより早くスパイダーされることを保証しますしばらく前からありました。

古いドメインで1日あたり100,000ページのインデックスを作成するのに十分ですか?

疑わしい、長年にわたってかなりの量のアクティビティ(つまり、蓄積されたコンテンツとインバウンドリンク)があった古いドメインについて話していない限り。

インデックス作成プロセス自体を支援することに特化したSEOコンサルタントはいますか。

あなたがそのように質問をすると、大声で「はい!」と宣言するSEOがたくさん見つかるはずです。しかし、結局のところ、Virtuosi Mediaの提案はあなたがそれらのどれからでも得るのと同じくらい良いアドバイスです(潜在的に悪いアドバイスは言うまでもありません)。

その音から、ビジネス開発と広報チャンネルを利用して、この時点でサイトのランキングを構築することを検討する必要があります-コンテンツへのリンクを取得します(できれば、地域をターゲットにしたコンテンツを提供する既存のサイトと提携して、たとえば、地域ごとに分割されたコンテンツ)、サイトにブラウジングするユーザーを増やします(一部のユーザーはGoogleツールバーがインストールされるため、トラフィックmayページ発見に向けて働きます)。また、可能であれば、ビジネスについて話しますニュースやそれを必要とする人々のコミュニティについて(特定のサービスに課金する予定がある場合は、関心を引くために無料試用期間の広告を検討してください)。

5
danlefree

私が知っている2つの可能な選択肢があります。

1つ:驚くほどうまく機能する300万ページのWebサイトで試したちょっとしたトリックは、同僚がクロールループを作成したことです。あなたのサイトに合うようにアイデアを少し操作する必要があるかもしれません。

基本的に、トラフィック(クリスマス)が増えるとは思わない日を設定し、サイト上のすべてのリンクのリストを文字通りコピーして、すべてのWebページで呼び出されるphpファイルにすべてのリンクを貼り付けました。 (サイドバーphpファイル)

その後、Google検索コンソール(以前のgoogleウェブマスターツール)にアクセスし、URLを取得してそのURLページのすべてのリンクをクロールするようGoogleに指示しました。

非常に多くのリンクがあり、それらのリンク先のページにも大量のリンクがあるため、Googleは少しループして、サイトをより高速にクロールします。最初は懐疑的でしたが、魅力のように機能しました。

これを行う前に、非常に効率的なデータベース設定と非常に強力なサーバーがあることを確認する必要があります。そうしないと、ページの読み込み時間が遅くなり、サーバーが過負荷になったり、SEOが損なわれる可能性があります。

それがあなたのためのオプションではない場合は、いつでもGoogleのクラウドコンソールAPIを調べることができます。彼らは検索コンソールAPIを持っているので、検索コンソールで各ウェブページを独自のウェブサイトインスタンスとして追加するか、グーグルにURLを1つずつ取得させるスクリプトを書くことができます。

APIは非常に迅速に複雑になる可能性がありますが、正しく使用すると驚くべきツールとなります。

幸運を!

3
Zak

Googleウェブマスターツールで気付いたことの1つは、1秒あたり約2つのリクエストの最大クロールレートを許可することから開始することです。その後、約1週間かそこらで、Webサイトに頻繁にアクセスしていることがわかった場合、制限を引き上げることができます。

500,000を超えるオリジナル画像をホストするWebサイトを共同運営していますが、1日あたり少なくとも700〜1000件のヒットが発生するため、最大制限は1秒あたり10件です。

したがって、クロールの制限を増やすことができるかどうかを毎週確認するために、ウェブマスターツールで確認することをお勧めします。クロールの制限を変更すると、特定の日が経過すると(インターフェースに表示されます)、Googleによってクロールの制限が優先設定にリセットされます。その日、再び制限を引き上げます。

2
Mike

私はこの種のサイトの経験があります。私は何年も前に記事のディレクトリを実行しましたが、インデックス付けされたページの割合と実際に実行しているページの割合は、参照ドメインの数、つまりリンクしているユニークなウェブサイトの数にほぼ直接関係していました。それ自体で実行するためにリンクする合理的なドメイン。

確かに一晩で起こるわけではありませんが、それが起こるようになる時間に1日あたり5から10の良いリンクを構築し、それからあなたは収入を生み出し、それを使ってリンクを構築するためにプロのSEO服を支払う立場になりますあなたのために。

現在、情報が豊富な同様のサイトを初期段階で構築していますが、1日あたり700〜1,000ページのクロールレートで、約400万ページのコンテンツについて同じ問題を抱えています。

2
Adrian Lawrence

オンラインでの評判を重視する合法的なビジネスを運営している場合、システムのゲームは決して良いアイデアではありません。また、サイトが真に価値を提供している場合、サイトが長くなると(何らかのマーケティングを行っていると思われますか?)、より多くのバックリンクが発生するため、PRが上がり、クロールレートが上がります。

また、サイトに適切なリンク構造がある場合(すべてのページが妥当な数のクリック/リンクで検出可能)、サイトマップを介してメインインデックスを送信するだけです。これらのページがGoogleによってインデックス登録されると、Googleによってクロールされ、Googleは残りのページを独自にインデックス登録します。

2
Lèse majesté

私が知っている2つの可能な選択肢があります。

1つ:驚くほどうまく機能する300万ページのWebサイトで試したちょっとしたトリックは、同僚がクロールループを作成したことです。あなたのサイトに合うようにアイデアを少し操作する必要があるかもしれません。

基本的に、トラフィック(クリスマス)が増えるとは思わない日を設定し、サイト上のすべてのリンクのリストを文字通りコピーして、すべてのWebページで呼び出されるphpファイルにすべてのリンクを貼り付けました。 (サイドバーphpファイル)

その後、Google検索コンソール(以前のgoogleウェブマスターツール)にアクセスし、URLを取得してそのURLページのすべてのリンクをクロールするようGoogleに指示しました。

非常に多くのリンクがあり、それらのリンク先のページにも大量のリンクがあるため、Googleは少しループして、サイトをより高速にクロールします。最初は懐疑的でしたが、魅力のように機能しました。

これを行う前に、非常に効率的なデータベース設定と非常に強力なサーバーがあることを確認する必要があります。そうしないと、ページの読み込み時間が遅くなり、サーバーが過負荷になったり、SEOが損なわれる可能性があります。

それがあなたのためのオプションではない場合は、いつでもGoogleのクラウドコンソールAPIを調べることができます。彼らは検索コンソールAPIを持っているので、検索コンソールで各ウェブページを独自のウェブサイトインスタンスとして追加するか、グーグルにURLを1つずつ取得させるスクリプトを書くことができます。

APIは非常に迅速に複雑になる可能性がありますが、正しく使用すると驚くべきツールとなります。

幸運を!

1
ram singh