HTMLタグの解析

Question

DIHtmlParserを使用してタグ内から名前：＆値テキストを解析するにはどうすればよいですか？ Clever ComponentsのTCLHtmlParserで試してみましたが、失敗しました。 2番目の質問は、DIHtmlParserが個々のタグを解析できるかどうかです。たとえば、サブタグをループします。そのような単純な問題に対するその完全な悪夢。

<div class="tvRow tvFirst hasLabel tvFirst" title="example1"> <label class="tvLabel">Name:</label> <span class="tvValue">Value</span> <div class="clear"></div></div> <div class="tvRow tvFirst hasLabel tvFirst" title="example2"> <label class="tvLabel">Name:</label> <span class="tvValue">Value</span> <div class="clear"></div></div>

kobik · Accepted Answer

IHTMLDocument2 DOMを使用して、HTMLから必要な要素を解析できます。

uses ActiveX, MSHTML; const HTML = '<div class="tvRow tvFirst hasLabel tvFirst" title="example1">' + '<label class="tvLabel">Name:</label>' + '<span class="tvValue">Value</span>' + '<div class="clear"></div>' + '</div>'; procedure TForm1.Button1Click(Sender: TObject); var doc: OleVariant; el: OleVariant; i: Integer; begin doc := coHTMLDocument.Create as IHTMLDocument2; doc.write(HTML); doc.close; ShowMessage(doc.body.innerHTML); for i := 0 to doc.body.all.length - 1 do begin el := doc.body.all.item(i); if (el.tagName = 'LABEL') and (el.className = 'tvLabel') then ShowMessage(el.innerText); if (el.tagName = 'SPAN') and (el.className = 'tvValue') then ShowMessage(el.innerText); end; end;

今日見つけたもう1つの非常に優れたHTMLパーサーについて言及したいと思います： htmlp （Delphi Dom HTMLパーサーおよびコンバーター）。明らかにIHTMLDocument2ほど柔軟ではありませんが、操作が非常に簡単で、高速で、無料で、古いDelphiバージョンのUnicodeをサポートしています。

使用例：

uses HtmlParser, DomCore; function GetDocBody(HtmlDoc: TDocument): TElement; var i: integer; node: TNode; begin Result := nil; for i := 0 to HtmlDoc.documentElement.childNodes.length - 1 do begin node := HtmlDoc.documentElement.childNodes.item(i); if node.nodeName = 'body' then begin Result := node as TElement; Break; end; end; end; procedure THTMLForm.Button2Click(Sender: TObject); var HtmlParser: THtmlParser; HtmlDoc: TDocument; i: Integer; body, el: TElement; node: TNode; begin HtmlParser := THtmlParser.Create; try HtmlDoc := HtmlParser.parseString(HTML); try body := GetDocBody(HtmlDoc); if Assigned(body) then for i := 0 to body.childNodes.length - 1 do begin node := body.childNodes.item(i); if (node is TElement) then begin el := node as TElement; if (el.tagName = 'div') and (el.GetAttribute('class') = 'tvRow tvFirst hasLabel tvFirst') then begin // iterate el.childNodes here... ShowMessage(IntToStr(el.childNodes.length)); end; end; end; finally HtmlDoc.Free; end; finally HtmlParser.Free end; end;

Sir Rufo · Answer

HTMLパーサーを使用してHTMLファイルを操作します。

多分 DIHtmlParser が仕事をします。

RegExはパーサーではなく、HTMLからJSONへの変換は賢明なオプションではありません。

Ivelin Nikolaev · Answer

HTMLPパーサーとTHtmlFormatterおよび OXml XPath解析の組み合わせを使用することもできます。

uses // Htmlp HtmlParser, DomCore, Formatter, // OXml OXmlPDOM, OXmlUtils; function HtmlToXHtml(const Html: string): string; var HtmlParser: THtmlParser; HtmlDoc: TDocument; Formatter: THtmlFormatter; begin HtmlParser := THtmlParser.Create; try HtmlDoc := HtmlParser.ParseString(Html); try Formatter := THtmlFormatter.Create; try Result := Formatter.GetText(HtmlDoc); finally Formatter.Free; end; finally HtmlDoc.Free; end; finally HtmlParser.Free; end; end; type TCard = record Store: string; Quality: string; Quantity: string; Price: string; end; TCards = array of TCard; function ParseCard(const Node: PXMLNode): TCard; const StoreXPath = 'div[1]/ax'; QualityXPath = 'div[3]'; QuantityXPath = 'div[4]'; PriceXPath = 'div[5]'; var CurrentNode: PXMLNode; begin Result := Default(TCard); if Node.SelectNode(StoreXPath, CurrentNode) then Result.Store := CurrentNode.Text; if Node.SelectNode(QualityXPath, CurrentNode) then Result.Quality := CurrentNode.Text; if Node.SelectNode(QuantityXPath, CurrentNode) then Result.Quantity := CurrentNode.Text; if Node.SelectNode(PriceXPath, CurrentNode) then Result.Price := CurrentNode.Text; end; procedure THTMLForm.OpenButtonClick(Sender: TObject); var Html: string; Xml: string; FXmlDocument: IXMLDocument; QueryNode: PXMLNode; XPath: string; NodeList: IXMLNodeList; i: Integer; Card: TCard; begin Html := System.IOUtils.TFile.ReadAllText(FileNameEdit.Text, TEncoding.UTF8); Xml := HtmlToXHtml(Html); Memo.Lines.Text := Xml; // Parse with XPath FXMLDocument := CreateXMLDoc; FXMLDocument.WriterSettings.IndentType := itIndent; if not FXMLDocument.LoadFromXML(Xml) then raise Exception.Create('Source document is not valid'); QueryNode := FXmlDocument.DocumentElement; XPath := '//div[@class="row pricetableline"]'; NodeList := QueryNode.SelectNodes(XPath); for i := 0 to NodeList.Count -1 do begin Card := ParseCard(NodeList[i]); Memo.Lines.Text := Memo.Lines.Text + sLineBreak + Format('%0:s %1:s %2:s %3:s', [Card.Store, Card.Quality, Card.Quantity, Card.Price]); end; Memo.SelStart := 0; Memo.SelLength := 0; end;