C＃コードで（大きな）XMLを解析する最良の方法は何ですか？

Question

GMLベースのXMLスキーマ（以下のサンプル）の「機能」をサーバーから取得するために、C＃でGISクライアントツールを作成しています。抽出は100,000個の機能に制限されています。

最大のextract.xmlが約150メガバイトになる可能性があると推測しているので、明らかにDOMパーサーは使用できません XmlSerializer と XSD.EXE 生成されたバインディング--OR-- XmlReader および手作りのオブジェクトグラフ。

または、まだ検討していないより良い方法がありますか？ XLINQ、または????

誰でも私を導くことができますか？特に、特定のアプローチのメモリ効率に関して。そうでない場合は、両方のソリューションを「プロトタイプ化」して、それらを並べてプロファイルする必要があります。

私は、.NETでの生のエビです。どんなガイダンスでも大歓迎です。

ありがとう。キース。

サンプルXML-最大100,000個、機能ごとに最大234,600個の座標。

<feature featId="27168306" fType="vegetation" fTypeId="1129" fClass="vegetation" gType="Polygon" ID="0" cLockNr="51598" metadataId="51599" mdFileId="NRM/TIS/VEGETATION/9543_22_v3" dataScale="25000"> <MultiGeometry> <geometryMember> <Polygon> <outerBoundaryIs> <LinearRing> <coordinates>153.505004,-27.42196 153.505044,-27.422015 153.503992 .... 172 coordinates omitted to save space ... 153.505004,-27.42196</coordinates> </LinearRing> </outerBoundaryIs> </Polygon> </geometryMember> </MultiGeometry> </feature>

Mitch Wheat · Accepted Answer

XmlReaderを使用して、大きなXMLドキュメントを解析します。 XmlReaderは、XMLデータへの高速でフォワードのみの非キャッシュアクセスを提供します。（前方のみは、XMLファイルを最初から最後まで読み取ることができますが、ファイル内で後方に移動することはできません。）XmlReaderは少量のメモリを使用し、単純なSAXリーダーを使用するのと同等です。

 using (XmlReader myReader = XmlReader.Create(@"c:\data\coords.xml")) { while (myReader.Read()) { // Process each node (myReader.Value) here // ... } }

XmlReaderを使用して、最大2ギガバイト（GB）のサイズのファイルを処理できます。

参照： Visual C＃を使用してファイルからXMLを読み取る方法

corlettk · Answer

Asat 2009年5月14日：ハイブリッドアプローチの使用に切り替えました。以下のコードを参照してください。

このバージョンには、両方の利点のほとんどがあります。
* XmlReader/XmlTextReader（メモリ効率->速度）;そして
* XmlSerializer（code-gen->開発の便宜性と柔軟性）。

XmlTextReaderを使用してドキュメントを反復処理し、XmlSerializerとXSD.EXEで生成された「XMLバインディング」クラスを使用して逆シリアル化する「ドックレット」を作成します。

このレシピは普遍的に適用可能であり、高速だと思います... 56,000 GML機能を含む201 MBのXMLドキュメントを約7秒で解析しています...このアプリケーションの古いVB6実装は解析に数分（または数時間）かかりました大規模な抽出...だから私は行くのがいいよ。

もう一度、[〜＃〜] big [〜＃〜]貴重な時間を寄付してくれたフォーラムに感謝します。ほんとうにありがとう。

乾杯。キース。

using System; using System.Reflection; using System.Xml; using System.Xml.Serialization; using System.IO; using System.Collections.Generic; using nrw_rime_extract.utils; using nrw_rime_extract.xml.generated_bindings; namespace nrw_rime_extract.xml { internal interface ExtractXmlReader { rimeType read(string xmlFilename); } /// <summary> /// RimeExtractXml provides bindings to the RIME Extract XML as defined by /// $/Release 2.7/Documentation/Technical/SCHEMA and DTDs/nrw-rime-extract.xsd /// </summary> internal class ExtractXmlReader_XmlSerializerImpl : ExtractXmlReader { private Log log = Log.getInstance(); public rimeType read(string xmlFilename) { log.write( string.Format( "DEBUG: ExtractXmlReader_XmlSerializerImpl.read({0})", xmlFilename)); using (Stream stream = new FileStream(xmlFilename, FileMode.Open)) { return read(stream); } } internal rimeType read(Stream xmlInputStream) { // create an instance of the XmlSerializer class, // specifying the type of object to be deserialized. XmlSerializer serializer = new XmlSerializer(typeof(rimeType)); serializer.UnknownNode += new XmlNodeEventHandler(handleUnknownNode); serializer.UnknownAttribute += new XmlAttributeEventHandler(handleUnknownAttribute); // use the Deserialize method to restore the object's state // with data from the XML document. return (rimeType)serializer.Deserialize(xmlInputStream); } protected void handleUnknownNode(object sender, XmlNodeEventArgs e) { log.write( string.Format( "XML_ERROR: Unknown Node at line {0} position {1} : {2}	{3}", e.LineNumber, e.LinePosition, e.Name, e.Text)); } protected void handleUnknownAttribute(object sender, XmlAttributeEventArgs e) { log.write( string.Format( "XML_ERROR: Unknown Attribute at line {0} position {1} : {2}='{3}'", e.LineNumber, e.LinePosition, e.Attr.Name, e.Attr.Value)); } } /// <summary> /// xtractXmlReader provides bindings to the extract.xml /// returned by the RIME server; as defined by: /// $/Release X/Documentation/Technical/SCHEMA and /// DTDs/nrw-rime-extract.xsd /// </summary> internal class ExtractXmlReader_XmlTextReaderXmlSerializerHybridImpl : ExtractXmlReader { private Log log = Log.getInstance(); public rimeType read(string xmlFilename) { log.write( string.Format( "DEBUG: ExtractXmlReader_XmlTextReaderXmlSerializerHybridImpl." + "read({0})", xmlFilename)); using (XmlReader reader = XmlReader.Create(xmlFilename)) { return read(reader); } } public rimeType read(XmlReader reader) { rimeType result = new rimeType(); // a deserializer for featureClass, feature, etc, "doclets" Dictionary<Type, XmlSerializer> serializers = new Dictionary<Type, XmlSerializer>(); serializers.Add(typeof(featureClassType), newSerializer(typeof(featureClassType))); serializers.Add(typeof(featureType), newSerializer(typeof(featureType))); List<featureClassType> featureClasses = new List<featureClassType>(); List<featureType> features = new List<featureType>(); while (!reader.EOF) { if (reader.MoveToContent() != XmlNodeType.Element) { reader.Read(); // skip non-element-nodes and unknown-elements. continue; } // skip junk nodes. if (reader.Name.Equals("featureClass")) { using ( StringReader elementReader = new StringReader(reader.ReadOuterXml())) { XmlSerializer deserializer = serializers[typeof (featureClassType)]; featureClasses.Add( (featureClassType) deserializer.Deserialize(elementReader)); } continue; // ReadOuterXml advances the reader, so don't read again. } if (reader.Name.Equals("feature")) { using ( StringReader elementReader = new StringReader(reader.ReadOuterXml())) { XmlSerializer deserializer = serializers[typeof (featureType)]; features.Add( (featureType) deserializer.Deserialize(elementReader)); } continue; // ReadOuterXml advances the reader, so don't read again. } log.write( "WARNING: unknown element '" + reader.Name + "' was skipped during parsing."); reader.Read(); // skip non-element-nodes and unknown-elements. } result.featureClasses = featureClasses.ToArray(); result.features = features.ToArray(); return result; } private XmlSerializer newSerializer(Type elementType) { XmlSerializer serializer = new XmlSerializer(elementType); serializer.UnknownNode += new XmlNodeEventHandler(handleUnknownNode); serializer.UnknownAttribute += new XmlAttributeEventHandler(handleUnknownAttribute); return serializer; } protected void handleUnknownNode(object sender, XmlNodeEventArgs e) { log.write( string.Format( "XML_ERROR: Unknown Node at line {0} position {1} : {2}	{3}", e.LineNumber, e.LinePosition, e.Name, e.Text)); } protected void handleUnknownAttribute(object sender, XmlAttributeEventArgs e) { log.write( string.Format( "XML_ERROR: Unknown Attribute at line {0} position {1} : {2}='{3}'", e.LineNumber, e.LinePosition, e.Attr.Name, e.Attr.Value)); } } }

corlettk · Answer

要約すると、Googleでこのスレッドを見つけた人にとっては、答えをもう少しわかりやすくするためです。

.NET 2より前は、XmlTextReaderは標準APIで利用可能な最もメモリ効率の良いXMLパーサーでした（thanx Mitch ;-)

.NET 2はXmlReaderクラスを導入しましたが、これはより優れています。これは前方専用の要素反復子です（StAXパーサーに少し似ています）。（ありがとう、セレブラス;-)

また、XMLインスタンスのキディーは、約500kを超える可能性があるので、DOMを使用しないでください。

乾杯。キース。

Andy White · Answer

[〜＃〜] sax [〜＃〜] パーサーはあなたが探しているものかもしれません。 SAXでは、ドキュメント全体をメモリに読み込む必要はありません。ドキュメントをインクリメンタルに解析し、必要に応じて要素を処理できます。 .NETでSAXパーサーが提供されているかどうかはわかりませんが、いくつかのオープンソースオプションを確認できます。