R：XMLデータをデータフレームに変換する

Question

宿題のために、XMLファイルをRのデータフレームに変換しようとしています。さまざまなことを試しましたが、インターネットでアイデアを探しましたが、失敗しました。ここに私のコードがあります：

library(XML) url <- 'http://www.ggobi.org/book/data/olive.xml' doc <- xmlParse(myUrl) root <- xmlRoot(doc) dataFrame <- xmlSApply(xmltop, function(x) xmlSApply(x, xmlValue)) data.frame(t(dataFrame),row.names=NULL)

私が得る出力は、数字の巨大なベクトルのようなものです。データをデータフレームに整理しようとしていますが、コードを適切に調整してそれを取得する方法がわかりません。

hrbrmstr · Accepted Answer

XMLパッケージのようにverboseではなくxml2にはメモリリークはなく、データ抽出にレーザーが集中しています。 Rコアに最近追加されたreallyであるtrimwsを使用します。

library(xml2) pg <- read_xml("http://www.ggobi.org/book/data/olive.xml") # get all the <record>s recs <- xml_find_all(pg, "//record") # extract and clean all the columns vals <- trimws(xml_text(recs)) # extract and clean (if needed) the area names labs <- trimws(xml_attr(recs, "label")) # mine the column names from the two variable descriptions # this XPath construct lets us grab either the <categ…> or <real…> tags # and then grabs the 'name' attribute of them cols <- xml_attr(xml_find_all(pg, "//data/variables/*[self::categoricalvariable or self::realvariable]"), "name") # this converts each set of <record> columns to a data frame # after first converting each row to numeric and assigning # names to each column (making it easier to do the matrix to data frame conv) dat <- do.call(rbind, lapply(strsplit(vals, "\ +"), function(x) { data.frame(rbind(setNames(as.numeric(x),cols))) })) # then assign the area name column to the data frame dat$area_name <- labs head(dat) ## region area palmitic palmitoleic stearic oleic linoleic linolenic ## 1 1 1 1075 75 226 7823 672 NA ## 2 1 1 1088 73 224 7709 781 31 ## 3 1 1 911 54 246 8113 549 31 ## 4 1 1 966 57 240 7952 619 50 ## 5 1 1 1051 67 259 7771 672 50 ## 6 1 1 911 49 268 7924 678 51 ## arachidic eicosenoic area_name ## 1 60 29 North-Apulia ## 2 61 29 North-Apulia ## 3 63 29 North-Apulia ## 4 78 35 North-Apulia ## 5 80 46 North-Apulia ## 6 70 44 North-Apulia

[〜＃〜] update [〜＃〜]

私は今、この方法で最後のビットを慎重に行います：

library(tidyverse) strsplit(vals, "[[:space:]]+") %>% map_df(~as_data_frame(as.list(setNames(., cols)))) %>% mutate(area_name=labs)

Parfait · Answer

上記の素晴らしい答え！将来の読者のために、Rインポートを必要とする複雑なXMLに直面するときはいつでも、 [〜＃〜] xslt [〜＃〜] （操作する特殊な宣言型プログラミング言語を使用してXML文書を再構築することを検討してくださいさまざまな最終用途のニーズへのXMLコンテンツ）。次に、XMLパッケージのRのxmlToDataFrame()関数を使用します。

残念ながら、Rには、すべてのオペレーティングシステムでCRAN-Rで使用できる専用のXSLTパッケージがありません。リストされている [〜＃〜] sxlt [〜＃〜] はLinuxパッケージであるようで、Windowsでは使用できません。未回答SO質問 here および here を参照してください。@ hrbrmstr（上記）が GitHub XSLTプロジェクトそれにもかかわらず、ほぼすべての汎用言語は、Java、C＃、Python、PHP、Perl、およびVBを含むXSLTプロセッサーを維持しています。

以下はオープンソースのPythonルートであり、XMLドキュメントはかなり微妙であるため、2つのXSLTが使用されています（もちろんXSLTの達人はそれらを1つに結合できますが、動作するように。

FIRST XSLT（再帰テンプレートを使用）

<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> <xsl:output omit-xml-declaration="yes" indent="yes"/> <xsl:strip-space elements="*"/> <!-- Identity Transform --> <xsl:template match="node()|@*"> <xsl:copy> <xsl:apply-templates select="node()|@*"/> </xsl:copy> </xsl:template> <xsl:template match="record/text()" name="tokenize"> <xsl:param name="text" select="."/> <xsl:param name="separator" select="' '"/> <xsl:choose> <xsl:when test="not(contains($text, $separator))"> <data> <xsl:value-of select="normalize-space($text)"/> </data> </xsl:when> <xsl:otherwise> <data> <xsl:value-of select="normalize-space(substring-before($text, $separator))"/> </data> <xsl:call-template name="tokenize"> <xsl:with-param name="text" select="substring-after($text, $separator)"/> </xsl:call-template> </xsl:otherwise> </xsl:choose> </xsl:template> <xsl:template match="description|variables|categoricalvariable|realvariable"> </xsl:template>

SECOND XSLT

<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> <!-- Identity Transform --> <xsl:template match="records"> <xsl:copy> <xsl:apply-templates select="node()|@*"/> </xsl:copy> </xsl:template> <xsl:template match="record"> <record> <area_name><xsl:value-of select="@label"/></area_name> <area><xsl:value-of select="data[1]"/></area> <region><xsl:value-of select="data[2]"/></region> <palmitic><xsl:value-of select="data[3]"/></palmitic> <palmitoleic><xsl:value-of select="data[4]"/></palmitoleic> <stearic><xsl:value-of select="data[5]"/></stearic> <oleic><xsl:value-of select="data[6]"/></oleic> <linoleic><xsl:value-of select="data[7]"/></linoleic> <linolenic><xsl:value-of select="data[8]"/></linolenic> <arachidic><xsl:value-of select="data[9]"/></arachidic> <eicosenoic><xsl:value-of select="data[10]"/></eicosenoic> </record> </xsl:template> </xsl:stylesheet>

Python（lxmlモジュールを使用）

import lxml.etree as ET cd = os.path.dirname(os.path.abspath(__file__)) # FIRST TRANSFORMATION dom = ET.parse('http://www.ggobi.org/book/data/olive.xml') xslt = ET.parse(os.path.join(cd, 'Olive.xsl')) transform = ET.XSLT(xslt) newdom = transform(dom) tree_out = ET.tostring(newdom, encoding='UTF-8', pretty_print=True, xml_declaration=True) xmlfile = open(os.path.join(cd, 'Olive_py.xml'),'wb') xmlfile.write(tree_out) xmlfile.close() # SECOND TRANSFORMATION dom = ET.parse(os.path.join(cd, 'Olive_py.xml')) xslt = ET.parse(os.path.join(cd, 'Olive2.xsl')) transform = ET.XSLT(xslt) newdom = transform(dom) tree_out = ET.tostring(newdom, encoding='UTF-8', pretty_print=True, xml_declaration=True) xmlfile = open(os.path.join(cd, 'Olive_py.xml'),'wb') xmlfile.write(tree_out) xmlfile.close()

[〜＃〜] r [〜＃〜]

library(XML) # LOADING TRANSFORMED XML INTO R DATA FRAME doc<-xmlParse("Olive_py.xml") xmldf <- xmlToDataFrame(nodes = getNodeSet(doc, "//record")) View(xmldf)

出力

area_name area region palmitic palmitoleic stearic oleic linoleic linolenic arachidic eicosenoic North-Apulia 1 1 1075 75 226 7823 672 na 60 North-Apulia 1 1 1088 73 224 7709 781 31 61 29 North-Apulia 1 1 911 54 246 8113 549 31 63 29 North-Apulia 1 1 966 57 240 7952 619 50 78 35 North-Apulia 1 1 1051 67 259 7771 672 50 80 46 ...

（XMLドキュメントの「na」の後に余分なスペースが追加されたため、arachidicとeicosenoicが前方にシフトされたため、最初のレコードのわずかなクリーンアップが必要です）

Rich Scriven · Answer

これが私が思いついたものです。オリーブオイルcsvファイルと一致します。これは同じページでも利用できます。最初の列名としてXが表示されますが、xmlには表示されないため、手動で追加しました。

それをセクションに分割し、すべての部品を取得したら、最終的なデータフレームを組み立てるのがおそらく最善でしょう。 XPathの[.XML*ショートカット、およびその他の[[コンビニエンスアクセサー関数も使用できます。

library(XML) url <- "http://www.ggobi.org/book/data/olive.xml" ## parse the xml document and get the top-level XML node doc <- xmlParse(url) top <- xmlRoot(doc) ## create the data frame df <- cbind( ## get all the labels for the first column (groups) X = unlist(doc["//record//@label"], use.names = FALSE), read.table( ## get all the records as a character vector text = xmlValue(top[["data"]][["records"]]), ## get the column names from 'variables' col.names = xmlSApply(top[["data"]][["variables"]], xmlGetAttr, "name"), ## assign the NA values to 'na' in the records na.strings = "na" ) ) ## result head(df) # X region area palmitic palmitoleic stearic oleic linoleic linolenic arachidic eicosenoic # 1 North-Apulia 1 1 1075 75 226 7823 672 NA 60 29 # 2 North-Apulia 1 1 1088 73 224 7709 781 31 61 29 # 3 North-Apulia 1 1 911 54 246 8113 549 31 63 29 # 4 North-Apulia 1 1 966 57 240 7952 619 50 78 35 # 5 North-Apulia 1 1 1051 67 259 7771 672 50 80 46 # 6 North-Apulia 1 1 911 49 268 7924 678 51 70 44 ## clean up free(doc); rm(doc, top); gc()