余分な/冗長なフォーマットタグを削除してHTMLをクリーニングする

Question

私は、ユーザーがHTMLエディターを使用してコメントを追加できるWebサイトに CKEditor wysiwygエディターを使用しています。最終的に、非常に冗長なネストされたHTMLコードがデータベースに含まれ、これらのコメントの表示/編集が遅くなります。

次のようなコメントがあります（これは非常に小さな例です。100を超えるタグがネストされたコメントがあります）。

<p> <strong> <span style="font-size: 14px"> <span style="color: #006400"> <span style="font-size: 14px"> <span style="font-size: 16px"> <span style="color: #006400"> <span style="font-size: 14px"> <span style="font-size: 16px"> <span style="color: #006400">This is a </span> </span> </span> </span> </span> </span> </span> <span style="color: #006400"> <span style="font-size: 16px"> <span style="color: #b22222">Test</span> </span> </span> </span> </span> </strong> </p>

私の質問は：

HTMLコードのスマートな（つまり、フォーマットを認識する）クリーンアップを実行して、フォーマットに影響を与えないすべての冗長タグを削除できるライブラリ/コード/ソフトウェアはありますか（内部タグによって上書きされるため）。多くの既存のオンラインソリューション（HTML Tidyなど）を試しました。それらのどれも私が望むことをしません。
そうでない場合は、HTMLの解析とクリーニングのためのコードを記述する必要があります。 PHP Simple HTML DOM を使用してHTMLツリーをトラバースし、影響のないすべてのタグを見つけることを計画しています。私の目的により適した他のHTMLパーサーを提案しますか？

ありがとう

。

更新：

私が持っているHTMLコードを分析するためのコードを書きました。私が持っているすべてのHTMLタグは次のとおりです。

のスタイル付きfont-sizeおよび/またはcolor
属性colorまたはsize
<a>（hrefを使用した）リンクの場合

（コメント全体をラップする単一のタグ）

HTMLコードをbbcodeに変換するコードを簡単に記述できます（例：[b]、[color=blue]、[size=3]など）。だから私はHTMLの上にあるようなものになります：

[b][size=14][color=#006400][size=14][size=16][color=#006400] [size=14][size=16][color=#006400]This is a [/color][/size] [/size][/color][/size][/size][color=#006400][size=16] [color=#b22222]Test[/color][/size][/color][/color][/size][/b]

質問は次のとおりです：乱雑な（元のHTMLのように乱雑な）bbcodeをクリーンアップする簡単な方法（アルゴリズム/ライブラリ/ etc）はありますか？生成されますか？

再度、感謝します

Baba · Accepted Answer

前書き

これまでに見てきた最善の解決策は、HTML Tidy http://tidy.sourceforge.net/

Tidyは、ドキュメントの形式を変換するだけでなく、非推奨のHTMLタグを、クリーンオプションを使用して、対応するカスケードスタイルシート（CSS）に自動的に変換することもできます。生成された出力には、インラインスタイル宣言が含まれます。

また、HTMLドキュメントがxhtml互換であることも保証します

例

$code ='<p> <strong> <span style="font-size: 14px"> <span style="color: #006400"> <span style="font-size: 14px"> <span style="font-size: 16px"> <span style="color: #006400"> <span style="font-size: 14px"> <span style="font-size: 16px"> <span style="color: #006400">This is a </span> </span> </span> </span> </span> </span> </span> <span style="color: #006400"> <span style="font-size: 16px"> <span style="color: #b22222">Test</span> </span> </span> </span> </span> </strong> </p>';

走れば

$clean = cleaning($code); print($clean['body']);

出力

<p> <strong> <span class="c3"> <span class="c1">This is a</span> <span class="c2">Test</span> </span> </strong> </p>

CSSを入手できます

$clean = cleaning($code); print($clean['style']);

出力

<style type="text/css"> span.c3 { font-size: 14px } span.c2 { color: #006400; font-size: 16px } span.c1 { color: #006400; font-size: 14px } </style>

私たちの完全なHTML

$clean = cleaning($code); print($clean['full']);

出力

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title></title> <style type="text/css"> /*<![CDATA[*/ span.c3 {font-size: 14px} span.c2 {color: #006400; font-size: 16px} span.c1 {color: #006400; font-size: 14px} /*]]>*/ </style> </head> <body> <p> <strong><span class="c3"><span class="c1">This is a</span> <span class="c2">Test</span></span></strong> </p> </body> </html>

使用する機能

function cleaning($string, $tidyConfig = null) { $out = array (); $config = array ( 'indent' => true, 'show-body-only' => false, 'clean' => true, 'output-xhtml' => true, 'preserve-entities' => true ); if ($tidyConfig == null) { $tidyConfig = &$config; } $tidy = new tidy (); $out ['full'] = $tidy->repairString ( $string, $tidyConfig, 'UTF8' ); unset ( $tidy ); unset ( $tidyConfig ); $out ['body'] = preg_replace ( "/.*<body[^>]*>|<\/body>.*/si", "", $out ['full'] ); $out ['style'] = '<style type="text/css">' . preg_replace ( "/.*<style[^>]*>|<\/style>.*/si", "", $out ['full'] ) . '</style>'; return ($out); }

================================================

編集1：ダーティーハック（非推奨）

================================================

あなたの最後のコメントに基づいて、減価償却スタイルを保持したいようです.. HTML Tidyはdepreciatedなのでそれを許可しないかもしれませんが、これは可能です

$out = cleaning ( $code ); $getStyle = new css2string (); $getStyle->parseStr ( $out ['style'] ); $body = $out ['body']; $search = array (); $replace = array (); foreach ( $getStyle->css as $key => $value ) { list ( $selector, $name ) = explode ( ".", $key ); $search [] = "<$selector class=\"$name\">"; $style = array (); foreach ( $value as $type => $att ) { $style [] = "$type:$att"; } $replace [] = "<$selector style=\"" . implode ( ";", $style ) . ";\">"; }

出力

<p> <strong> <span style="font-size:14px;"> <span style="color:#006400;font-size:14px;">This is a</span> <span style="color:#006400;font-size:16px;">Test</span> </span> </strong> </p>

使用するクラス

//Credit : http://stackoverflow.com/a/8511837/1226894 class css2string { var $css; function parseStr($string) { preg_match_all ( '/(?ims)([a-z0-9, \s\.\:#_\-@]+)\{([^\}]*)\}/', $string, $arr ); $this->css = array (); foreach ( $arr [0] as $i => $x ) { $selector = trim ( $arr [1] [$i] ); $rules = explode ( ';', trim ( $arr [2] [$i] ) ); $this->css [$selector] = array (); foreach ( $rules as $strRule ) { if (! empty ( $strRule )) { $rule = explode ( ":", $strRule ); $this->css [$selector] [trim ( $rule [0] )] = trim ( $rule [1] ); } } } } function arrayImplode($glue, $separator, $array) { if (! is_array ( $array )) return $array; $styleString = array (); foreach ( $array as $key => $val ) { if (is_array ( $val )) $val = implode ( ',', $val ); $styleString [] = "{$key}{$glue}{$val}"; } return implode ( $separator, $styleString ); } function getSelector($selectorName) { return $this->arrayImplode ( ":", ";", $this->css [$selectorName] ); } }

Dunhamzzz · Answer

HTMLPurifier を調べる必要があります。これは、HTMLを解析し、HTMLから不要で安全でないコンテンツを削除するための優れたツールです。空のスパンの構成などを削除する方法を調べます。私が認めるように設定するのは少し厄介なことかもしれませんが、それはそれが非常に用途が広いという理由だけです。

また、非常に重いため、その出力をデータベースに保存することをお勧めします（データベースから未加工データを読み取り、毎回Purifierで解析するのではありません）。

MMeah · Answer

これは、ブラウザを使用してネストされた要素のプロパティを取得するソリューションです。 CSSで計算されたスタイルはブラウザーから読み取る準備ができているため、プロパティをカスケードする必要はありません。

次に例を示します。 http://jsfiddle.net/mmeah/fUpe8/3/

var fixedCode = readNestProp($("#redo")); $("#simp").html( fixedCode ); function readNestProp(el){ var output = ""; $(el).children().each( function(){ if($(this).children().length==0){ var _that=this; var _cssAttributeNames = ["font-size","color"]; var _tag = $(_that).prop("nodeName").toLowerCase(); var _text = $(_that).text(); var _style = ""; $.each(_cssAttributeNames, function(_index,_value){ var css_value = $(_that).css(_value); if(typeof css_value!= "undefined"){ _style += _value + ":"; _style += css_value + ";"; } }); output += "<"+_tag+" style='"+_style+"'>"+_text+"</"+_tag+">"; }else if( $(this).prop("nodeName").toLowerCase() != $(this).find(">:first-child").prop("nodeName").toLowerCase() ){ var _tag = $(this).prop("nodeName").toLowerCase(); output += "<"+_tag+">" + readNestProp(this) + "</"+_tag+">"; }else{ output += readNestProp(this); }; }); return output; }

次のようなすべての可能なcss属性を入力するためのより良い解決策：
var _cssAttributeNames = ["font-size"、 "color"];
ここで述べたようなソリューションを使用する必要があります： jQueryは要素に関連付けられたすべてのCSSスタイルを取得できますか？

Ozzy · Answer

これを完了する時間がありません...多分誰かが助けることができます。このJavaScriptは、完全に重複したタグと許可されていないタグも削除します...

いくつかの問題/やるべきことがあり、
1）再生成されたタグは閉じる必要があります
2）タグ名と属性がそのノードの子の中で別のものと同一である場合にのみタグを削除するため、不要なタグをすべて削除するのに十分な「スマート」ではありません。
3）許可されたCSS変数を調べ、要素からそれらの値をすべて抽出し、それを出力HTMLに書き込みます。たとえば、次のようになります。

var allowed_css = ["color","font-size"]; <span style="font-size: 12px"><span style="color: #123123">

に翻訳されます：

<span style="color:#000000;font-size:12px;"> <!-- inherited colour from parent --> <span style="color:#123123;font-size:12px;"> <!-- inherited font-size from parent -->

コード：

<html> <head> <script type="text/javascript"> var allowed_css = ["font-size", "color"]; var allowed_tags = ["p","strong","span","br","b"]; function initialise() { var comment = document.getElementById("comment"); var commentHTML = document.getElementById("commentHTML"); var output = document.getElementById("output"); var outputHTML = document.getElementById("outputHTML"); print(commentHTML, comment.innerHTML, false); var out = getNodes(comment); print(output, out, true); print(outputHTML, out, false); } function print(out, stringCode, allowHTML) { out.innerHTML = allowHTML? stringCode : getHTMLCode(stringCode); } function getHTMLCode(stringCode) { return "<code>"+((stringCode).replace(/</g,"&lt;")).replace(/>/g,"&gt;")+"</code>"; } function getNodes(elem) { var output = ""; var nodesArr = new Array(elem.childNodes.length); for (var i=0; i<nodesArr.length; i++) { nodesArr[i] = new Array(); nodesArr[i].Push(elem.childNodes[i]); getChildNodes(elem.childNodes[i], nodesArr[i]); nodesArr[i] = removeDuplicates(nodesArr[i]); output += nodesArr[i].join(""); } return output; } function removeDuplicates(arrayName) { var newArray = new Array(); label: for (var i=0; i<arrayName.length; i++) { for (var j=0; j<newArray.length; j++) { if(newArray[j]==arrayName[i]) continue label; } newArray[newArray.length] = arrayName[i]; } return newArray; } function getChildNodes(elemParent, nodesArr) { var children = elemParent.childNodes; for (var i=0; i<children.length; i++) { nodesArr.Push(children[i]); if (children[i].hasChildNodes()) getChildNodes(children[i], nodesArr); } return cleanHTML(nodesArr); } function cleanHTML(arr) { for (var i=0; i<arr.length; i++) { var elem = arr[i]; if (elem.nodeType == 1) { if (tagNotAllowed(elem.nodeName)) { arr.splice(i,1); i--; continue; } elem = "<"+elem.nodeName+ getAttributes(elem) +">"; } else if (elem.nodeType == 3) { elem = elem.nodeValue; } arr[i] = elem; } return arr; } function tagNotAllowed(tagName) { var allowed = " "+allowed_tags.join(" ").toUpperCase()+" "; if (allowed.search(" "+tagName.toUpperCase()+" ") == -1) return true; else return false; } function getAttributes(elem) { var attributes = ""; for (var i=0; i<elem.attributes.length; i++) { var attrib = elem.attributes[i]; if (attrib.specified == true) { if (attrib.name == "style") { attributes += " style=\""+getCSS(elem)+"\""; } else { attributes += " "+attrib.name+"=\""+attrib.value+"\""; } } } return attributes } function getCSS(elem) { var style=""; if (elem.currentStyle) { for (var i=0; i<allowed_css.length; i++) { var styleProp = allowed_css[i]; style += styleProp+":"+elem.currentStyle[styleProp]+";"; } } else if (window.getComputedStyle) { for (var i=0; i<allowed_css.length; i++) { var styleProp = allowed_css[i]; style += styleProp+":"+document.defaultView.getComputedStyle(elem,null).getPropertyValue(styleProp)+";"; } } return style; } </script> </head> <body onload="initialise()"> <div style="float: left; width: 300px;"> <h2>Input</h2> <div id="comment"> <p> <strong> <span style="font-size: 14px"> <span style="color: #006400"> <span style="font-size: 14px"> <span style="font-size: 16px"> <span style="color: #006400"> <span style="font-size: 14px"> <span style="font-size: 16px"> <span style="color: #006400">This is a </span> </span> </span> </span> </span> </span> </span> <span style="color: #006400"> <span style="font-size: 16px"> <span style="color: #b22222"><b>Test</b></span> </span> </span> </span> </span> </strong> </p> <p>Second paragraph. <span style="color: #006400">This is a span</span></p> </div> <h3>HTML code:</h3> <div id="commentHTML"> </div> </div> <div style="float: left; width: 300px;"> <h2>Output</h2> <div id="output"> </div> <h3>HTML code:</h3> <div id="outputHTML"> </div> </div> <div style="float: left; width: 300px;"> <h2>Tasks</h2> <big> <ul> <li>Close Tags</li> <li>Ignore inherited CSS style in method getCSS(elem)</li> <li>Test with different input HTML</li> </ul> </big> </div> </body> </html>

Madara Uchiha · Answer

それは正確にあなたの正確な問題に対処しないかもしれませんが、私があなたの代わりにしたことは、すべてのHTMLタグを完全に排除し、痛みのあるテキストと改行だけを保持することです。

それが終わったら、bbcodeをmarkdownに切り替えて、コメントをより適切にフォーマットします。 WYSIWYGが役立つことはほとんどありません。

その理由は、コメントに含まれているのはプレゼンテーションデータであり、率直に言ってそれほど重要ではないということです。

Jason · Answer

HTMLのクリーンアップは、要求しているように見えるタグを折りたたみます。ただし、CSSをインラインスタイルに移動して、検証済みのHTMLドキュメントを作成します。他の多くのHTMLフォーマッタは、HTMLドキュメントの構造を変更するため、これを行いません。

Ozzy · Answer

悪いHTMLの解析に貴重なサーバー時間を無駄にするのではなく、代わりに問題の根本を修正することをお勧めします。

単純な解決策は、テキストの数だけではなく、各コメント作成者がHTML文字数全体を含めることができる文字を制限することです（少なくとも、無限に大きなネストされたタグを停止します）。

ユーザーがHTMLビューとテキストビューを切り替えられるようにすることで、これを改善できます。HTMLビューでは、CTRL + AとDELを押すと、ほとんどの人が大量の迷惑メールを目にするはずです。

独自のフォーマット文字を解析してフォーマットに置き換えると、スタックオーバーフローに**bold text**、ポスターに表示されます。または、BBコードが実行するだけで、ポスターが表示されます。

Manoj Solanki · Answer

Adobe（Macromedia）Dreamweaver、少なくとも少し古いバージョンには、「HTMLをクリーンアップする」オプションと、「クリーンアップWord html」を使用して、Webページから余分なタグなどを削除したことを覚えています。

squarephoenix · Answer

HTML DOMクレンザーを探しているのはわかっていますが、おそらくjsが役立ちますか？

function getSpans(){ var spans=document.getElementsByTagName('span') for (var i=0;i<spans.length;i++){ spans[i].removeNode(true); if(i == spans.length) { //add the styling you want here } } }

Paul · Answer

JQueryを使用する場合は、次のことを試してください。

<p> <strong> <span style="font-size: 14px"> <span style="color: #006400"> <span style="font-size: 14px"> <span style="font-size: 16px"> <span style="color: #006400"> <span style="font-size: 14px"> <span style="font-size: 16px"> <span style="color: #006400">This is a </span> </span> </span> </span> </span> </span> </span> <span style="color: #006400"> <span style="font-size: 16px"> <span style="color: #b22222">Test</span> </span> </span> </span> </span> </strong> </p> <br><br> <div id="out"></div> <!-- Just to print it out --> $("span").each(function(i){ var ntext = $(this).text(); ntext = $.trim(ntext.replace(/(
|
|
)/gm," ")); if(i==0){ $("#out").text(ntext); } });

結果としてこれが得られます：

<div id="out">This is a Test</div>

その後、必要に応じてフォーマットできます。あなたがそれについて少し異なる考えをするのに役立つことを願っています...

yunzen · Answer

HTMLをDOMではなく多分SAXで解析するようにしてください（http://www.brainbell.com/tutorials/php/Parsing_XML_With_SAX.htm）

SAXはドキュメントを最初から解析し、「要素の開始」や「要素の終了」などのイベントを送信して、定義したコールバック関数を呼び出します

次に、すべてのイベントに対して一種のスタックを構築できます。テキストがある場合、そのテキストに対するスタックの効果を保存できます。

その後、スタックを処理して、必要な効果のみを持つ新しいHTMLを構築します。