web-dev-qa-db-ja.com

HTMLをテキストに変換する方法は?

LinuxでHTMLをテキストファイルに変換する方法を教えてください。たとえば、Googleへのクエリをcurl実行し、出力htmlをテキストに変換して、変換したテキストを端末で読み取ります。 RHEL6を使用しています。

12
rivu

Curlには組み込みのHTMLプロセッサはないと思います。しかしながら:

lynx --dump <URL>

トリックを行います。

それでもcurlを使用したい場合は、html2text(Ubuntuで使用可能)を使用できます。

10
Teun Vink

html2text(高度なHTMLからテキストへのコンバーター)をインストールでき、使い方は簡単です。

$ html2text http://example.com/
$ cat file.html | html2text -o file.txt

インストール方法:

  • Linux:apt-get install html2text
  • OS X:brew install html2text

curlの例:

$ curl -sL google.com | html2text
Search Images Maps Play YouTube News Gmail Drive More ?
Web History | Settings | Sign in
     A better way to browse the web
       Get Google Chrome

          Advanced search Language tools

        [Google Search][I'm Feeling Lucky]

     Advertising Programmes Business Solutions+GoogleAbout GoogleGoogle.com
                           ? 2016 - Privacy - Terms
6
kenorb