web-dev-qa-db-ja.com

サイトをクロールし、デッドリンクとリンクされていないファイルを見つけるのに役立つツール

文字通り何千ものPDFを含むかなり大きなレガシーサイトがあります。これらのPDFは時々データベースで処理されますが、多くの場合、ページ上の単なるリンクであり、サイト上のほとんどすべてのディレクトリに保存されます。

自分のサイトのすべてのリンクをたどるphpクローラーを作成し、それをディレクトリ構造のダンプと比較していますが、もっと簡単なものがありますか?

21
MrChrister

Xenu's Link Sleuth を使用しました。うまく動作します。DOSを使用しないでください。

15
plntxt

Windows 7を使用している場合、最良のツールはIIS7のSEO Toolkit 1.0です。無料で、無料でダウンロードできます。

ツールは任意のサイトをスキャンし、すべてのデッドリンクがどこにあるか、どのページがロードに時間がかかるか、タイトルが欠落しているページ、タイトルが重複している、キーワードと説明が同じ、HTMLが壊れているページを通知します。

6
Ben Hoffman

W3Cのオープンソースツールリンクチェッカー を試してください。オンラインで使用するか、ローカルにインストールできます

4
mvark

Microsys 、特に A1 Sitemap Generator および A1 Website Analyzer の製品がいくつかあります。これらの製品は、Webサイトをクロールし、考えられるすべてを報告します。それ。

壊れたリンクだけでなく、すべてのページのテーブルビューも含まれるため、同一の<title>タグとメタ説明タグ、nofollowリンク、Webページ上のメタnoindex、鋭い目だけが必要な多くの病気などを比較できます。簡単に修正できます。

1
Evgeny

Link Examiner は、あなたの必要性にとっても非常に良いフリーウェアです。

1
Dark

私は linklint の大ファンです。unixコマンドラインがあれば(*) linux、MacOS、およびFreeBSDで使用されています)。インストール手順については、サイトを参照してください。インストールしたら、check.llというファイルを作成して、次のことを行います。

linklint @check.ll

Check.llファイルは次のようになります

# linklint
-doc .
-delay 0
-http
-htmlonly
-limit 4000
-net
-Host www.example.com
-timeout 10

それはwww.example.comのクロールを行い、破損、欠落などの相互参照レポートを含むHTMLファイルを生成します。

1
artlung