web-dev-qa-db-ja.com

ドメイン不法占拠者を指すリンクを検出するにはどうすればよいですか?

404ページに移動するデッドリンクを見つける方法を知っています。ただし、最近では実際にリンクが失われることはほとんどなく、代わりにドメインスクワットターに移動します。私はこれは難しい注文だと思いますが、実際にブラウザで各サイトに行き、リュックサックなどの少女の写真があるかどうかを調べることなく、ウェブサイトが実際にドメインスクワットであるかどうかを知る方法はありますか。?

4
delete

保留中のページ/ドメインの可能な検出方法:

ジャンクフレーズを見つける

「必要なもの、必要なときに」、「事実上すべてのソース」など、一般的な一般的なジャンクフレーズの大文字と小文字を区別しない検索を実行します。

購入の招待状を見つける

「このドメインについて問い合わせる」や「このドメインは販売されている可能性があります」などのテキストを探します。

ランダムなサブページで404をテストする

testdomain.com/randomstringにアクセスしてください。 404を取得した場合、またはページ自体に「404」または「not found」というテキストが含まれている場合、おそらく駐車されていません。

ランダムなサブページでリダイレクトをテストする

他のパークドメインシステムは、testdomain.com/randomstringtestdomain.comにリダイレクトします。

メタタグでドメイン名を検索する

いくつかのパークドメインテンプレートは、authorメタタグに次の形式を使用します。

<meta name="author" content="Nameofdomain.com" />

他の人はそれを説明に入れました:

<meta name="description" content="nameofdomain.com">

いずれの場合も、ドメインは「コンテンツ」属性のonlyのものです。これは、アクティブなサイトには当てはまりません。

フレームセットタグを探します

一部のドメインパーキングテンプレートは、複数の内部フレームで<frameset>タグを使用して外部コンテンツ(多くの場合 'information.com'から)を取得しますが、それ以外はページに何も表示しません。

複数のテストを使用する

これらのテストのどれも、それ自体でパークされたドメインの必ずしも信頼できる指標ではありません。複数のテストを組み合わせて独自のアルゴリズムを作成し、既知のパークされたドメインと既知のアクティブなドメインのスイートに基づいてテストと改良を行う必要があります。

2
Nick

あなたが探すことができるものがあります。ページの主要な要素はiFrameですか?応答は、ドメイン外に移動する301/302ですか? (多くの不法占拠者は、ランディングページにあなたを単に302または301します)。リンク/テキストの比率は非常に高いですか?

非常に難しいと思いますが、それは少なくともいくつかの共通の特徴です。

Wikipedia linkrotページには、これを実行しようとするプロジェクトを参照しているプロジェクトもあるようです。 http://en.wikipedia.org/wiki/Wikipedia_talk:Linkrot -詳細しかし大ざっぱです。

0
Mark Henderson