web-dev-qa-db-ja.com

WebサイトのURLの抽出

UbuntuでWebサイト内のすべてのディレクトリを検索する方法はありますか?

ウェブサイトがあり、そのウェブサイトの内部リンク(ディレクトリ)を確認したい。

このようなもの:

Enter image description here

...

このウェブサイトの問題は、ubuntu.com/cloudのようなものを入力すると、サブディレクトリが表示されないことです。

4
Arsalan Khattak

ターミナルを開き、次を入力します。

Sudo apt install lynx  
lynx -dump -listonly -nonumbers "https://www.ubuntu.com/" | uniq -u 

このコマンドは、出力をlinks.txtという名前のテキストファイルにリダイレクトすることにより、前のコマンドを改善します。

lynx -dump "https://www.ubuntu.com/" | awk '/http/{print $2}' | uniq -u > links.txt
9
karel

this superuser.comからの回答を参照してください。

wget --spider -r --no-parent http://some.served.dir.ca/
ls -l some.served.dir.ca

ただし、これを無料で行い、出力をxml形式に変換する無料のWebサイトがあります。どの方法がニーズに適しているかを確認するために、これらのいずれかを検討することをお勧めします。

EditOPには新しいスクリーンプリントが含まれています

5
DWD