web-dev-qa-db-ja.com

サイトからURLのリストを取得する

クライアント用の代替サイトを展開していますが、古いページがすべて404で終わることを望んでいません。古いURL構造を保持することは、恐ろしいため不可能でした。

そこで、リクエストされている古いページを探し、新しいページへの永続的なリダイレクトを行う404ハンドラーを作成しています。問題は、すべての古いページURLのリストが必要だということです。

手動でこれを行うことはできますが、自宅に与えられたばかりの相対URL(http:/.../ page/pathではなく/ page/path)のリストを提供するアプリがあるかどうかに興味があります。ページ。クモに似ていますが、より深いページを見つけること以外はコンテンツを気にしません。

84
Oli

自分の質問に答えるつもりはありませんでしたが、サイトマップジェネレーターを実行することを考えました。最初に見つけたのは http://www.xml-sitemaps.com に素敵なテキスト出力があります。私のニーズに最適です。

56
Oli

wget -r -l0 www.oldsite.comを行います

そうすると、find www.oldsite.comだけですべてのURLが表示されます。

または、404リクエストごとにカスタムのnot-foundページを提供するだけです!つまり誰かが間違ったリンクを使用した場合、そのページが見つからなかったことを知らせるページを取得し、サイトのコンテンツに関するヒントを作成します。

43
alamar

サイトマップジェネレーターのリストを以下に示します(明らかにサイトからURLのリストを取得できます): http://code.google.com/p/sitemap-generators/wiki/SitemapGenerators

Webサイトマップジェネレーター

以下は、sitemaps.orgで定義され、Ask、Google、Microsoft Live Search、Yahoo!などの検索エンジンでサポートされているオープンスタンダードであるXML Sitemaps形式のファイルを生成または維持するツールへのリンクです。通常、サイトマップファイルには、Webサイト上のURLのコレクションとこれらのURLのメタデータが含まれています。通常、次のツールは「ウェブタイプ」のXMLサイトマップとURLリストファイルを生成します(一部のツールは他の形式をサポートする場合もあります)。

注:Googleは、このサイトに記載されているサードパーティソフトウェアの機能またはセキュリティをテストまたは検証していません。ソフトウェアに関するご質問は、ソフトウェアの作成者にお問い合わせください。これらのツールをお楽しみください!

サーバー側プログラム

  • Enarion phpSitemapsNG(PHP)
  • Google Sitemap Generator(Linux/Windows、32/64bit、オープンソース)
  • Outil en PHP(フランス語、PHP)
  • Perlサイトマップジェネレーター(Perl)
  • Pythonサイトマップジェネレーター(Python)
  • シンプルなサイトマップ(PHP)
  • SiteMap XML動的サイトマップジェネレーター(PHP)$
  • OS/2用サイトマップジェネレーター(REXX-script)
  • XMLサイトマップジェネレーター(PHP)$

CMSおよびその他のプラグイン:

  • ASP.NET-Sitemaps.Net
  • DotClear(スペイン語)
  • ドットクリア(2)
  • Drupal
  • Eコマーステンプレート(PHP)$
  • Eコマーステンプレート(PHPまたはASP)$
  • LifeType
  • MediaWiki Sitemap generator
  • mnoGoSearch
  • OSコマース
  • phpWebSite
  • クローン
  • ラピッドウィーバー
  • テキストパターン
  • vBulletin
  • Wikka Wiki(PHP)
  • WordPress

ダウンロード可能なツール

  • GSiteCrawler(Windows)
  • GWebCrawler&Sitemap Creator(Windows)
  • G-Mapper(Windows)
  • Inspyder Sitemap Creator(Windows)$
  • IntelliMapper(Windows)$
  • Microsys A1サイトマップジェネレーター(Windows)$
  • Rage Google Sitemap Automator $(OS-X)
  • Screaming Frog SEOスパイダーとサイトマップジェネレーター(Windows/Mac)$
  • Site Map Pro(Windows)$
  • サイトマップライター(Windows)$
  • DevIntelligenceによるサイトマップジェネレーター(Windows)
  • Sorrowmansサイトマップツール(Windows)
  • TheSiteMapper(Windows)$
  • Vigos Gsitemap(Windows)
  • Visual SEO Studio(Windows)
  • WebDesignPros Sitemap Generator(Java Webstartアプリケーション)
  • Weblight(Windows/Mac)$
  • WonderWebWare Sitemap Generator(Windows)

オンラインジェネレーター/サービス

  • AuditMyPc.com Sitemap Generator
  • AutoMapIt
  • 自動サイトマップ$
  • Enarion phpSitemapsNG
  • 無料のサイトマップ生成ツール
  • Neuroticweb.com Sitemap Generator
  • RORサイトマップジェネレーター
  • ScriptSocket Sitemap Generator
  • SeoUtility Sitemap Generator(イタリア語)
  • SitemapDoc
  • Sitemapspal
  • サイトマップ
  • Smart-IT-Consulting Google Sitemaps XML Validator
  • XMLサイトマップジェネレーター
  • XMLサイトマップジェネレーター

サイトマップジェネレーターが統合されたCMS

  • コンクリート5

Googleニュースサイトマップジェネレーター次のプラグインを使用すると、パブリッシャーはGoogleニュースサイトマップファイルを更新できます。これは、ヘルプセンターで説明しているsitemaps.orgプロトコルの一種です。サイトマップファイルの通常のプロパティに加えて、Googleニュースサイトマップを使用すると、出版社は発行するコンテンツの種類を説明し、個々の記事へのアクセスレベルを指定できます。 Googleニュースの詳細については、ヘルプセンターとヘルプフォーラムをご覧ください。

  • WordPress Googleニュースプラグイン

コードスニペット/ライブラリ

  • ASPスクリプト
  • Emacs LISPスクリプト
  • Javaライブラリ
  • Perlスクリプト
  • PHPクラス
  • PHPジェネレータースクリプト

正当な理由でツールを追加または削除する必要があると思われる場合は、ウェブマスターヘルプフォーラムにコメントを残してください。

20

私が見つけた最高のものは http://www.auditmypc.com/xml-sitemap.asp です。これはJavaを使用し、ページに制限がなく、結果を生のURLとしてエクスポートすることもできます。リスト。

また、セッションも使用するため、CMSを使用している場合は、クロールを実行する前にログアウトしていることを確認してください。

6
Collins

したがって、理想的な世界では、サイト内のすべてのページの仕様があります。また、すべてのページにアクセスしてテストすることができるテストインフラストラクチャもあります。

あなたはおそらく理想的な世界にいないでしょう。なぜこれをしませんか...?

  1. 既知の古いURLと新しいURLの間のマッピングを作成します。古いURLが表示されたらリダイレクトします。 「このページは移動しました。新しいURLはXXXです。すぐにリダイレクトされます」を表示することを検討します。

  2. マッピングがない場合は、「ごめんなさい-このページは移動しました。ホームページへのリンクがあります」というメッセージを提示し、必要に応じてリダイレクトしてください。

  3. すべてのリダイレクト、特にマッピングのないリダイレクトをログに記録します。時間が経つにつれて、重要なページのマッピングを追加します。

2
Martin Peck

linuxボックスからのwgetも、スパイダーへのスイッチがあり、出力を変更するので、良いオプションです。

編集:wgetはWindowsでも利用可能です: http://gnuwin32.sourceforge.net/packages/wget.htm

2
Thomas Schultz

ディスクからすべてのhtmlを読み取り、「a」要素のすべての「href」属性を出力するスパイダーを作成します(パーサーで実行できます)。特定のページに属するリンクを覚えておいてください(これはMultiMapデータ構造の一般的なタスクです)。この後、404ハンドラーの入力として機能するマッピングファイルを作成できます。

1
Mork0075

私は、オンラインサイトマップ生成ツールをいくつでも調べます。個人的には、私は過去に this one (Javaベース)を使用しましたが、「サイトマップビルダー」をGoogleで検索すると、さまざまなオプションが見つかるはずです。

0
Eric Petroelje