javaの文字列から無効なXML文字を削除する

Question

やあ私はすべての無効なXML文字を文字列から削除したいと思います。 string.replaceメソッドで正規表現を使用したいと思います。

お気に入り

line.replace(regExp,"");

使用する正しいregExpは何ですか？

無効なXML文字は、これ以外のすべてです：

[#x1-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]

ありがとう。

McDowell · Accepted Answer

Javaの正規表現は補助文字をサポートしています。したがって、2つのUTF-16エンコード文字でこれらの高範囲を指定できます。

XML 1. で無効な文字を削除するためのパターンを次に示します。

_// XML 1.0 // #x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF] String xml10pattern = "[^" + "\u0009
" + "\u0020-\uD7FF" + "\uE000-\uFFFD" + "\ud800\udc00-\udbff\udfff" + "]"; _

ほとんどの人はXML 1.0バージョンが必要です。

XML 1.1 で不正な文字を削除するためのパターンを次に示します。

_// XML 1.1 // [#x1-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF] String xml11pattern = "[^" + "\u0001-\uD7FF" + "\uE000-\uFFFD" + "\ud800\udc00-\udbff\udfff" + "]+"; _

String.replaceAll(...)ではなく、 String.replace(...) を使用する必要があります。

_String illegal = "Hello, World!\0"; String legal = illegal.replaceAll(pattern, ""); _

Jun · Answer

代理文字を考慮する必要がありますか？そうでない場合、「（current> = 0x10000）&&（current <= 0x10FFFF）」は決して真になりません。

また、正規表現の方法が次のループよりも遅いように見えることもテストしました。

if (null == text || text.isEmpty()) { return text; } final int len = text.length(); char current = 0; int codePoint = 0; StringBuilder sb = new StringBuilder(); for (int i = 0; i < len; i++) { current = text.charAt(i); boolean surrogate = false; if (Character.isHighSurrogate(current) && i + 1 < len && Character.isLowSurrogate(text.charAt(i + 1))) { surrogate = true; codePoint = text.codePointAt(i++); } else { codePoint = current; } if ((codePoint == 0x9) || (codePoint == 0xA) || (codePoint == 0xD) || ((codePoint >= 0x20) && (codePoint <= 0xD7FF)) || ((codePoint >= 0xE000) && (codePoint <= 0xFFFD)) || ((codePoint >= 0x10000) && (codePoint <= 0x10FFFF))) { sb.append(current); if (surrogate) { sb.append(text.charAt(i)); } } }

Nicholas DiPiazza · Answer

これまでのところ、これらの答えはすべて、キャラクター自体を置き換えるだけです。ただし、XMLドキュメントに無効なXMLエンティティシーケンスが含まれ、エラーが発生する場合があります。たとえば、 xmlで、Java xmlパーサーはIllegal character entity: expansion character (code 0x2 at ...。

これらの無効なエンティティシーケンスを置き換えることができる単純なJavaプログラムです。

 public final Pattern XML_ENTITY_PATTERN = Pattern.compile("\&\#(?:x([0-9a-fA-F]+)|([0-9]+))\;"); /** * Remove problematic xml entities from the xml string so that you can parse it with Java DOM / SAX libraries. */ String getCleanedXml(String xmlString) { Matcher m = XML_ENTITY_PATTERN.matcher(xmlString); Set<String> replaceSet = new HashSet<>(); while (m.find()) { String group = m.group(1); int val; if (group != null) { val = Integer.parseInt(group, 16); if (isInvalidXmlChar(val)) { replaceSet.add("&#x" + group + ";"); } } else if ((group = m.group(2)) != null) { val = Integer.parseInt(group); if (isInvalidXmlChar(val)) { replaceSet.add("&#" + group + ";"); } } } String cleanedXmlString = xmlString; for (String replacer : replaceSet) { cleanedXmlString = cleanedXmlString.replaceAll(replacer, ""); } return cleanedXmlString; } private boolean isInvalidXmlChar(int val) { if (val == 0x9 || val == 0xA || val == 0xD || val >= 0x20 && val <= 0xD7FF || val >= 0x10000 && val <= 0x10FFFF) { return false; } return true; }

Vlasec · Answer

簡素化されたJunのソリューション。 StringBuffer#appendCodePoint(int)を使用すると、_char current_またはString#charAt(int)は不要です。 codePointが_0xFFFF_より大きいかどうかを確認することで、サロゲートペアを知ることができます。

（低サロゲートはフィルターを通過しないため、i ++を実行する必要はありません。しかし、異なるコードポイントでコードを再利用すると失敗します。ハッキングよりもプログラミングを好みます。）

_StringBuilder sb = new StringBuilder(); for (int i = 0; i < text.length(); i++) { int codePoint = text.codePointAt(i); if (codePoint > 0xFFFF) { i++; } if ((codePoint == 0x9) || (codePoint == 0xA) || (codePoint == 0xD) || ((codePoint >= 0x20) && (codePoint <= 0xD7FF)) || ((codePoint >= 0xE000) && (codePoint <= 0xFFFD)) || ((codePoint >= 0x10000) && (codePoint <= 0x10FFFF))) { sb.appendCodePoint(codePoint); } } _

Renaud · Answer

からマークマクラーレンのウェブログ

 /** * This method ensures that the output String has only * valid XML unicode characters as specified by the * XML 1.0 standard. For reference, please see * <a href="http://www.w3.org/TR/2000/REC-xml-20001006#NT-Char">the * standard</a>. This method will return an empty * String if the input is null or empty. * * @param in The String whose non-valid characters we want to remove. * @return The in String, stripped of non-valid characters. */ public static String stripNonValidXMLCharacters(String in) { StringBuffer out = new StringBuffer(); // Used to hold the output. char current; // Used to reference the current character. if (in == null || ("".equals(in))) return ""; // vacancy test. for (int i = 0; i < in.length(); i++) { current = in.charAt(i); // NOTE: No IndexOutOfBoundsException caught here; it should not happen. if ((current == 0x9) || (current == 0xA) || (current == 0xD) || ((current >= 0x20) && (current <= 0xD7FF)) || ((current >= 0xE000) && (current <= 0xFFFD)) || ((current >= 0x10000) && (current <= 0x10FFFF))) out.append(current); } return out.toString(); }

Roger F. Gay · Answer

から JavaでXMLのテキストデータをエンコードする最良の方法？

String xmlEscapeText(String t) { StringBuilder sb = new StringBuilder(); for(int i = 0; i < t.length(); i++){ char c = t.charAt(i); switch(c){ case '<': sb.append("&lt;"); break; case '>': sb.append("&gt;"); break; case '\"': sb.append("&quot;"); break; case '&': sb.append("&amp;"); break; case '\'': sb.append("&apos;"); break; default: if(c>0x7e) { sb.append("&#"+((int)c)+";"); }else sb.append(c); } } return sb.toString(); }

Hans Schreuder · Answer

String xmlData = xmlData.codePoints().filter(c -> isValidXMLChar(c)).collect(StringBuilder::new, StringBuilder::appendCodePoint, StringBuilder::append).toString(); private boolean isValidXMLChar(int c) { if((c == 0x9) || (c == 0xA) || (c == 0xD) || ((c >= 0x20) && (c <= 0xD7FF)) || ((c >= 0xE000) && (c <= 0xFFFD)) || ((c >= 0x10000) && (c <= 0x10FFFF))) { return true; } return false; }

Roger F. Gay · Answer

禁止文字を含むテキスト要素をXMLのような形式で保存する場合は、代わりにXPLを使用できます。開発キットは、XPLからXMLへの同時処理とXML処理を提供します。つまり、XPLからXMLへの変換に時間費用がかかりません。または、XML（名前空間）のすべての機能が必要ない場合は、XPLを使用できます。

Webページ：HLL XPL