web-dev-qa-db-ja.com

攻撃者はどのようにrobots.txtを使用できますか?

攻撃者がrobots.txtファイルをどのように使用できるかを知りたい。パスとディレクトリのリストを含めることができることは知っています。それで全部ですか、それとももっと情報を見つけることができますか?

30
human_garbage

それで全部です。あなたが目にするものrobots.txtがすべてです。

攻撃者にとって便利なのは、サイト管理者がrobots.txt機密情報を非表示にします。 " https://www.example.com/sensitive_info "を非表示のままにしておく必要がある場合は、ボットによってクロールされないようにする必要があるため、robots.txt。ただし、そこに配置すると、攻撃者にも公開されます。

48
Sjoerd

Web開発者またはWeb管理者は、robots.txtはWebクローラーに何を表示し、何を回避するかを伝えるためだけのものであると考えています。それは実際には良い部分です。

しかし、ここが問題です。ペンテスターは常に、robots.txtのチェックを含めて、機密情報を収集したり、推測するのが難しいパスの情報を取得したりします。ペンテスターの仕事をより簡単にします。

このような情報があれば、攻撃者はどのテクノロジを使用していて、どのパスを探すべきかを知ることができます。

User-Agent: *
Disallow: /extend/themes/search.php
Disallow: /themes/search.php
Disallow: /support/rss
Disallow: /archive/
Disallow: /wp-content/plugins/
Disallow: /wp-admin/ 

ここで/ wp-admin /は攻撃者の関心事です。そして時々あなたはそうでなければクローラーにとっても難しいであろうとても簡単に道を得るでしょう!.

Nmapにも関連する脆弱性をチェックするスクリプトがあります。

nmap -sV --script http-wordpress-enum <target>

ポートウィガーさえそれに関する記事を持っています。セキュリティの観点から、robots.txtに実際に書き込む必要がある理由と内容を理解するためにこれを確認してください。 portswigger robots.txt kb

15
Jassi

/robots.txtを介して行われる攻撃の1つのクラスは、以前はドメイン名で公開されていた情報のアーカイブの可用性への攻撃です。

投機家はドメイン名の元の所有者から身代金を強要できる

ドメイン名が変わると、その新しい所有者は/robots.txtを書き換えて、検索エンジンとアーカイブサービスに、そのドメイン名内のオリジンにあるWebサーバー上のパスにインデックスを付けないように通知できます。多くの投機家は、有効期限が切れた直後に ドロップリスト でドメイン名を購入し、/を軽量Webサーバーのパーキング通知に切り替え、検索エンジンを防ぐために/robots.txtを次のように切り替えます。 'クローラがトラフィックでサーバーに過負荷をかけることから:

User-agent: *
Disallow: /

しかし、Internet ArchiveのWayback MachineサービスがHTMLドキュメントをアーカイブすると、以前は/robots.txtcurrentコンテンツを使用していました。サイトがアーカイブされた時刻。一般に公開するかどうかを決定します。つまり、ドメイン名の新しい所有者は/robots.txtを書き換えて、以前の所有者が恐ろしいレートで投機家からドメイン名を買い戻すまで、Wayback Machineがアーカイブへのアクセスを拒否するようにすることができます。

サイトの所有者は過去のポリシーステートメントを隠すことができます

会社または政府機関が新しい管理下に置かれると、以前の管理者のポリシーのステートメントを取得することが困難または不可能になる可能性があります。ブッシュ政権は/robots.txtを使用して2003年と2007年にイラクへの米国の軍事関与に関連する文書を隠蔽したことを何度か非難されました( #1#2 =、 )。そして、2016年にオバマ大統領がアメリカ合衆国大統領を辞任しようとしたとき、国民は次期政権がオバマ政権から提供された環境保護やその他の原因でトランプの政党にとって魅力のない原因に関連する情報を消去しようとすると推測しました- ロイターのヴァレリー・ボルコビッチが報告 。このため、 インターネットアーカイブは各用語の終わりに.govをより詳細にクロールします

Wayback Machineはポリシーを変更しました

Internet Archiveがこれらの身代金およびメモリホールの攻撃を知ったとき、Wayback MachineがOriginの現在の/robots.txt米国政府および軍事サイトでは最初 および 後でWebで解釈する方法を変更しました全体 。代わりに、2017年のある時点から、インターネットアーカイブはサイトオペレーターが電子メールアドレスを使用してWayback Machineからの除外をリクエストします。

4
Damian Yerrick

手動で確認すると、確認する情報が増えます。スキャンを回避する必要があるリンクをWebクローラーに通知します。

2
user218274