web-dev-qa-db-ja.com

ドメインのすべてのインデックス付きページのリストを取得するにはどうすればよいですか?

古くなったeコマースカートをMagentoに移行中です。このプロセスの一部では、適切な301リダイレクトを構成する必要があります。インデックス登録されたすべてのページのリストを取得して、ソリューションを公開し、可能な限り多くの潜在的な問題を解決してから公開することを目指しています。

理想的には、ドメインの検索エンジンによってインデックス付けされたURIを含むCSVが必要なだけです。

同様の質問 here を見ると、このカートには何万もの製品があり(したがって、何万ものインデックスページ)。

Screaming Frogや、searchenginegenieやinternetmarketingninjasなどのWebベースのものなど、他のいくつかのサードパーティユーティリティに出会ったことがありますが、私はそれらを使用したことはなく、知らない限りサイトにトラフィックを追加することをためらっています必要なものを取得します。

誰かがこれらのツールを使用して同様のことをしたり、GWTから上位1000件以上のレコード(またはBingの類似したもの)を取得する方法を見つけましたか?

5
JR.XYZA

実際、今日は実際にScreaming Frogを使用しましたが、このツールが大好きです。非常に短い時間で多くの情報を取得できます。 CSVでメタデータを取得し、Excelで簡単に操作できます。すべてをエクスポートしてから、各列にフィルターを使用して、text/htmlのみを表示し、画像やCSSファイルは表示しません。

私は今、サイトの移行のためにそれを行っており、過去のものにそれを使用していました。何ページ話しているの? XenuのMozとSFの比較 です。

3
user29555

Googleは決して1000を超える結果を返さないので、私のキーはスタンドアロンのPerlスクリプトから(Lynx --accept-cookiesの助けを借りて)クエリするいくつかのセグメントでした

site:myweb.xxx in the way https://www.google.es/search?q=site:www.955170000.com+%2B+"AA"&num=50&filter=0

スクリプトは検索用の文字列を計算します。現在は "AA"で、次は "ZZ"まで "AB"をシークしますが、自分で選択して、数字やその他の文字を含めることができます。

次に、各検索結果(私の場合は50の結果のみ)がフィルター処理され、各インデックスページの各リンクが検索されます。それらはすべてファイルに記録されます。今、私たちは通過する必要があります|並べ替え|このファイルをuniqして、繰り返されるリンクを一掃します。クエリとクエリの間に最大120秒を追加しました。それ以外の場合、Googleはロボットの再使用を要求します。

つまり、この方法(フォームAAからAZ)およびページあたり100の結果26時間の処理で最大78Kのインデックス付きページを収集できます(一意のIPから実行しますが、異なるIPを持つ2台以上のマシンを配置して時間を節約できます) 。

もちろん、78K(クエリごとに100を超えない結果、各検索で最大1000の結果)を収集する必要がある場合、各検索文字列で最大1000を試すことができ、理論上は7をキャッチできます、8百万ページ。

多くが重複している可能性があるため、Googleからすべての可能な結果を​​取得したら、ndフィルターの一意の結果を並べ替える必要があります(sortおよびuniq * nixコマンドを使用してそれを行います)

次のステップ、つまり重複コンテンツやその他の問題の検出が簡単になりました。または、収集したすべてのURLを次のスクリプトに入れてGWTでURLを削除(再び1日あたり約1000に制限)するか、インデックスを再作成してアップロードを再登録します( Googleによる約3万のリンクに制限されています)

1
Joaquin Franco

また、Googleでsite:mydomain.comを検索して、サブドメインを含むドメインからすべてのインデックスページのリストを取得することもできます。

1
Ivar

現在使用している古いeコマースカートが何であっても、古いプラットフォームですべての製品およびカテゴリのURLをプログラムで生成できる場合、301リダイレクトを使用する必要はありません。 Magentoで同じURLを使用できます(core_url_rewriteテーブルを更新することにより)。これは、Magentoの特別な機能です。

以前はあなたのような古いeコマースカートを使用していたMagento WebサイトのSEOを使用していました。同じ古いURLを保持したままMagentoに移行しました。

Magentoに関する注意事項。 Magentoについての誇大宣伝が多すぎます。 MVCアーキテクチャを使用していますが、最悪のeコマースプラットフォームの1つです。これは特に、大規模なカタログに当てはまります(数万の製品とカテゴリがあると言う場合、あなたの場合に当てはまります)。高度なキャッシュを使用して処理を高速化する(そして非常に高価な)Enterprise Editionを使用している場合を除き、Community Editionはあなたの目的に役立ちません。

彼らはMagentoはSEOに優しいと言っています。真実から遠く離れることはできません。 Magento自身のURL(製品および製品レビューに関連する)は、SEOに関して完全に混乱しています。複数のカテゴリに割り当てられている場合、同じ製品に対して複数のURL(パス)を生成します。その場合、とにかくCatalog Url Rewrite管理を使用する必要があり、これは頭痛の種になる可能性があります。

MagnetoのURLの問題は、検索エンジンのランキングを傷つけることで、私が話しているWebサイトのビジネスに多大な損害を与える原因となっています。

とにかく、どのページがGoogleのインデックス(多層)にあるかについてあまり気にする必要はありません。 301リダイレクトを使用することにした場合は、それらすべてにインデックスが付けられ、それらすべてが301リダイレクトされると仮定します。

おかげで、
Satyabrata Das

1
Satyabrata Das

スプレッドシートでこの関数を使用します。
=importXml("http://google.com/search?q=site:YOUR_SITE.com&num=100&start=1","//cite")

これは、次の100を取得するためにstart = 101で1から100までのインデックス付きページを繰り返し返します。

0
katjam