PythonでXMLを解析する方法

Question

私はxmlを含むデータベースに多くの行を持っています、そして私はそれらの行を通過しそして特定のノード属性のいくつのインスタンスが現れるかを数えるPythonスクリプトを書くことを試みています。たとえば、私の木は次のようになります。

<foo>
   <bar>
      <type foobar="1"/>
      <type foobar="2"/>
   </bar>
</foo>

Pythonを使用してXMLの属性1と2にアクセスするにはどうすればよいですか。

<foo> <bar> <type foobar="1"/> <type foobar="2"/> </bar> </foo>

Pythonを使用してXMLの属性1と2にアクセスするにはどうすればよいですか。

Alex Martelli · Accepted Answer

ElementTree をお勧めします。 Python標準ライブラリ自体の lxml やcElementTreeなど、同じAPIに互換性のある実装が他にもあります。しかし、これに関連して、彼らが主に付け加えるものはさらにスピードが上がっています - プログラミングの容易さはElementTreeが定義するAPIにかかっています。

最初にXMLからElementインスタンスrootを作成します。 _ xml _ 関数を使用するか、ファイルを次のように解析してください。

import xml.etree.ElementTree as ET root = ET.parse('thefile.xml').getroot()

または ElementTree に示されている他の多くの方法のいずれか。その後、次のようにします。

for type_tag in root.findall('bar/type'): value = type_tag.get('foobar') print(value)

同様の、通常は非常に単純なコードパターン。

Ryan Christensen · Answer

minidom が最も早くて簡単です。

XML：

<data> <items> <item name="item1"></item> <item name="item2"></item> <item name="item3"></item> <item name="item4"></item> </items> </data>

パイソン：

from xml.dom import minidom xmldoc = minidom.parse('items.xml') itemlist = xmldoc.getElementsByTagName('item') print(len(itemlist)) print(itemlist[0].attributes['name'].value) for s in itemlist: print(s.attributes['name'].value)

出力

4 item1 item1 item2 item3 item4

YOU · Answer

BeautifulSoup を使えます

from bs4 import BeautifulSoup x="""<foo> <bar> <type foobar="1"/> <type foobar="2"/> </bar> </foo>""" y=BeautifulSoup(x) >>> y.foo.bar.type["foobar"] u'1' >>> y.foo.bar.findAll("type") [<type foobar="1"></type>, <type foobar="2"></type>] >>> y.foo.bar.findAll("type")[0]["foobar"] u'1' >>> y.foo.bar.findAll("type")[1]["foobar"] u'2'

Cyrus · Answer

そこに多くのオプションがあります。 cElementTree 速度とメモリ使用量が問題になる場合は/に優れています。単にreadlinesを使ってファイルを読み込むのに比べて、オーバーヘッドはほとんどありません。

関連するメトリックは、 cElementTree Webサイトからコピーされた以下の表にあります。

library time space xml.dom.minidom (Python 2.1) 6.3 s 80000K gnosis.objectify 2.0 s 22000k xml.dom.minidom (Python 2.4) 1.4 s 53000k ElementTree 1.2 1.6 s 14500k ElementTree 1.2.4/1.3 1.1 s 14500k cDomlette (C extension) 0.540 s 20500k PyRXPU (C extension) 0.175 s 10850k libxml2 (C extension) 0.098 s 16000k readlines (read as utf-8) 0.093 s 8850k cElementTree (C extension) --> 0.047 s 4900K <-- readlines (read as ascii) 0.032 s 5050k

@jfs で指摘されているように、cElementTreeはPythonにバンドルされています。

Python 2：from xml.etree import cElementTree as ElementTree.
Python 3：from xml.etree import ElementTree（Cの高速版が自動的に使われます）.

myildirim · Answer

簡単のために xmltodict をお勧めします。

XmlをOrderedDictに解析します。

>>> e = '<foo> <bar> <type foobar="1"/> <type foobar="2"/> </bar> </foo> ' >>> import xmltodict >>> result = xmltodict.parse(e) >>> result OrderedDict([(u'foo', OrderedDict([(u'bar', OrderedDict([(u'type', [OrderedDict([(u'@foobar', u'1')]), OrderedDict([(u'@foobar', u'2')])])]))]))]) >>> result['foo'] OrderedDict([(u'bar', OrderedDict([(u'type', [OrderedDict([(u'@foobar', u'1')]), OrderedDict([(u'@foobar', u'2')])])]))]) >>> result['foo']['bar'] OrderedDict([(u'type', [OrderedDict([(u'@foobar', u'1')]), OrderedDict([(u'@foobar', u'2')])])])

Ryan Ginstrom · Answer

lxml.objectify は本当に簡単です。

サンプルテキストを撮る：

from lxml import objectify from collections import defaultdict count = defaultdict(int) root = objectify.fromstring(text) for item in root.bar.type: count[item.attrib.get("foobar")] += 1 print dict(count)

出力：

{'1': 1, '2': 1}

Tor Valamo · Answer

Pythonにはexpat xmlパーサへのインタフェースがあります。

xml.parsers.expat

これは検証されていないパーサなので、悪いxmlはキャッチされません。しかし、あなたのファイルが正しいことを知っていれば、これはかなり良いです、そしておそらくあなたは あなたが望む正確な情報を得て、あなたはその場で残りを捨てることができます。

stringofxml = """<foo> <bar> <type arg="value" /> <type arg="value" /> <type arg="value" /> </bar> <bar> <type arg="value" /> </bar> </foo>""" count = 0 def start(name, attr): global count if name == 'type': count += 1 p = expat.ParserCreate() p.StartElementHandler = start p.Parse(stringofxml) print count # prints 4

gatkin · Answer

declxml をお勧めします。

完全な開示：このライブラリを書いたのは、ElementTreeを使って何十行もの命令型構文解析/直列化コードを書く必要なしに、XMLとPythonのデータ構造を変換する方法を探していたからです。

Declxmlでは、 processor を使用してXML文書の構造を宣言的に定義し、XMLデータ構造とPythonデータ構造の間のマッピング方法を定義します。プロセッサは、シリアル化と解析の両方、および基本的な検証レベルに使用されます。

Pythonのデータ構造を解析するのは簡単です。

import declxml as xml xml_string = """ <foo> <bar> <type foobar="1"/> <type foobar="2"/> </bar> </foo> """ processor = xml.dictionary('foo', [ xml.dictionary('bar', [ xml.array(xml.integer('type', attribute='foobar')) ]) ]) xml.parse_from_string(processor, xml_string)

これは出力を生成します：

{'bar': {'foobar': [1, 2]}}

同じプロセッサを使ってデータをXMLにシリアル化することもできます。

data = {'bar': { 'foobar': [7, 3, 21, 16, 11] }} xml.serialize_to_string(processor, data, indent=' ')

これは以下の出力を生成します

<?xml version="1.0" ?> <foo> <bar> <type foobar="7"/> <type foobar="3"/> <type foobar="21"/> <type foobar="16"/> <type foobar="11"/> </bar> </foo>

辞書の代わりにオブジェクトを使用したい場合は、オブジェクトとの間でもデータを変換するようにプロセッサを定義できます。

import declxml as xml class Bar: def __init__(self): self.foobars = [] def __repr__(self): return 'Bar(foobars={})'.format(self.foobars) xml_string = """ <foo> <bar> <type foobar="1"/> <type foobar="2"/> </bar> </foo> """ processor = xml.dictionary('foo', [ xml.user_object('bar', Bar, [ xml.array(xml.integer('type', attribute='foobar'), alias='foobars') ]) ]) xml.parse_from_string(processor, xml_string)

これは以下の出力を生成します

{'bar': Bar(foobars=[1, 2])}

jessag · Answer

別の可能性を追加するために、それは単純なxml-to-python-objectライブラリであるので、あなたはuntangleを使うことができます。ここに例があります：

インストール

pip install untangle

使用方法

あなたのxmlファイル（少し変更されたもの）：

<foo> <bar name="bar_name"> <type foobar="1"/> </bar> </foo>

untangleを使って属性にアクセスする：

import untangle obj = untangle.parse('/path_to_xml_file/file.xml') print obj.foo.bar['name'] print obj.foo.bar.type['foobar']

出力は以下のようになります。

bar_name 1

解くことについてのより多くの情報は見つけることができますここ。
（あなたが興味があるなら）また、あなたはXMLとPythonを扱うためのツールのリストを見つけることができますここ（あなたはまた、最も一般的なものが以前の答えで言及されたのを見るでしょう）。

Jan Kohila · Answer

これはcElementTreeを使った非常に単純だが効果的なコードです。

try: import cElementTree as ET except ImportError: try: # Python 2.5 need to import a different module import xml.etree.cElementTree as ET except ImportError: exit_err("Failed to import cElementTree from any known place") def find_in_tree(tree, node): found = tree.find(node) if found == None: print "No %s in file" % node found = [] return found # Parse a xml file (specify the path) def_file = "xml_file_name.xml" try: dom = ET.parse(open(def_file, "r")) root = dom.getroot() except: exit_err("Unable to open and parse input definition file: " + def_file) # Parse to find the child nodes list of node 'myNode' fwdefs = find_in_tree(root,"myNode")

ソース：

http://www.snip2code.com/Snippet/991/python-xml-parse?fromPage=1

EMP · Answer

私はPythonの xml.dom と xml.dom.minidom をとても簡単に見つけます。 DOMは大量のXMLには適していませんが、入力がかなり小さい場合はこれで問題ありません。

Souvik Dey · Answer

import xml.etree.ElementTree as ET data = '''<foo> <bar> <type foobar="1"/> <type foobar="2"/> </bar> </foo>''' tree = ET.fromstring(data) lst = tree.findall('bar/type') for item in lst: print item.get('foobar')

これはfoobar属性の値を表示します。

Ahito · Answer

XML

<foo> <bar> <type foobar="1"/> <type foobar="2"/> </bar> </foo>

PYTHON_CODE

import xml.etree.cElementTree as ET tree = ET.parse("foo.xml") root = tree.getroot() root_tag = root.tag print(root_tag) for form in root.findall("./bar/type"): x=(form.attrib) z=list(x) for i in z: print(x[i])

出力：

foo 1 2

G M · Answer

xml.etree.ElementTreeとlxml

これらは私がそれらの間で選択する前に知っておくと便利な2つの最も使用されているライブラリのうちのいくつかの長所です。

xml.etree.ElementTree：

標準ライブラリから ：モジュールをインストールする必要はありません

lxml

XML宣言を簡単に書く ：例えばstandalone="no"を追加する必要がありますか？
きれいな印刷 ：余分なコードなしでNice インデント XMLを持つことができます。
目的機能性：通常のPythonオブジェクトhierarchy.nodeを扱っているかのようにXMLを使うことができます。