HTMLを解析して要素内のテキストを取得する

Question

2つの要素内のテキストを文字列に取得する必要があります。

source_code = """<span class="UserName"><a href="#">Martin Elias</a></span>""" >>> text 'Martin Elias'

どうすればこれを達成できますか？

LISTERINE · Accepted Answer

「python parse html」を検索したところ、これが最初の結果でした： https://docs.python.org/2/library/htmlparser.html

このコードはpython docs

from HTMLParser import HTMLParser # create a subclass and override the handler methods class MyHTMLParser(HTMLParser): def handle_starttag(self, tag, attrs): print "Encountered a start tag:", tag def handle_endtag(self, tag): print "Encountered an end tag :", tag def handle_data(self, data): print "Encountered some data :", data # instantiate the parser and fed it some HTML parser = MyHTMLParser() parser.feed('<html><head><title>Test</title></head>' '<body><h1>Parse me!</h1></body></html>')

結果は次のとおりです。

Encountered a start tag: html Encountered a start tag: head Encountered a start tag: title Encountered some data : Test Encountered an end tag : title Encountered an end tag : head Encountered a start tag: body Encountered a start tag: h1 Encountered some data : Parse me! Encountered an end tag : h1 Encountered an end tag : body Encountered an end tag : html

これを使用し、HTMLParserのコードを見て、これを思いつきました。

class myhtmlparser(HTMLParser): def __init__(self): self.reset() self.NEWTAGS = [] self.NEWATTRS = [] self.HTMLDATA = [] def handle_starttag(self, tag, attrs): self.NEWTAGS.append(tag) self.NEWATTRS.append(attrs) def handle_data(self, data): self.HTMLDATA.append(data) def clean(self): self.NEWTAGS = [] self.NEWATTRS = [] self.HTMLDATA = []

次のように使用できます。

from HTMLParser import HTMLParser pstring = source_code = """<span class="UserName"><a href="#">Martin Elias</a></span>""" class myhtmlparser(HTMLParser): def __init__(self): self.reset() self.NEWTAGS = [] self.NEWATTRS = [] self.HTMLDATA = [] def handle_starttag(self, tag, attrs): self.NEWTAGS.append(tag) self.NEWATTRS.append(attrs) def handle_data(self, data): self.HTMLDATA.append(data) def clean(self): self.NEWTAGS = [] self.NEWATTRS = [] self.HTMLDATA = [] parser = myhtmlparser() parser.feed(pstring) # Extract data from parser tags = parser.NEWTAGS attrs = parser.NEWATTRS data = parser.HTMLDATA # Clean the parser parser.clean() # Print out our data print tags print attrs print data

これで、これらのリストからデータを簡単に抽出できるはずです。これがお役に立てば幸いです！

Cypress Frankenfeld · Answer

Python Beautiful Soup 4 ライブラリを使用することをお勧めします。

pip install beautifulsoup4

HTMLの解析が本当に簡単になります。

from bs4 import BeautifulSoup source_code = """<span class="UserName"><a href="#">Martin Elias</a></span>""" soup = BeautifulSoup(source_code) print soup.a.string >>> 'Martin Elias'

mushfiq · Answer

Beautifulsoupをインストールすると、次のようにできます。

from BeautifulSoup import BeautifulSoup source_code = '"""<span class="UserName"><a href="#">Martin Elias</a></span>"""' soup = BeautifulSoup(source_code) print soup.find('span',{'class':'UserName'}).text

LJNielsenDk · Answer

Html5libとXPathを使用して試すこともできますここには良い質問があります、その答えには重要な詳細（namespaceHTMLElements）があり、html5libが期待どおりに動作することを忘れないでください。私はそれを変更する必要があることを見落としていたので、私はそれを機能させるために非常に多くの時間を無駄にしました。