jsoupを使用してhtmlをプレーンテキストに変換するときに改行を保持するにはどうすればよいですか？

Question

私は次のコードを持っています：

 public class NewClass { public String noTags(String str){ return Jsoup.parse(str).text(); } public static void main(String args[]) { String strings="<!DOCTYPE HTML PUBLIC \"-//W3C//DTD HTML 4.0 Transitional//EN \">" + "<HTML> <HEAD> <TITLE></TITLE> <style>body{ font-size: 12px;font-family: verdana, arial, helvetica, sans-serif;}</style> </HEAD> <BODY><p><b>hello world</b></p><p><br><b>yo</b> <a href=\"http://google.com\">googlez</a></p></BODY> </HTML> "; NewClass text = new NewClass(); System.out.println((text.noTags(strings))); }

そして、私は結果があります：

hello world yo googlez

しかし、私は行を壊したい：

hello world yo googlez

jsoupのTextNode＃getWholeText（）を見てきましたが、使用方法がわかりません。

解析するマークアップに<br>がある場合、結果の出力で改行を取得するにはどうすればよいですか？

user121196 · Answer

改行を保持する実際のソリューションは次のようになります。

public static String br2nl(String html) { if(html==null) return html; Document document = Jsoup.parse(html); document.outputSettings(new Document.OutputSettings().prettyPrint(false));//makes html() preserve linebreaks and spacing document.select("br").append("\n"); document.select("p").prepend("\n\n"); String s = document.html().replaceAll("\\n", "
"); return Jsoup.clean(s, "", Whitelist.none(), new Document.OutputSettings().prettyPrint(false)); }

次の要件を満たします。

元のhtmlに改行（\ n）が含まれている場合、保持されます
元のhtmlにbrまたはpタグが含まれている場合、それらは改行（\ n）に変換されます。

Mirco Attocchi · Answer

と

Jsoup.parse("A
B").text();

出力があります

"A B"

ではなく

A B

このために私は使用しています：

descrizione = Jsoup.parse(html.replaceAll("(?i)<br[^>]*>", "br2n")).text(); text = descrizione.replaceAll("br2n", "
");

Paulius Z · Answer

_Jsoup.clean(unsafeString, "", Whitelist.none(), new OutputSettings().prettyPrint(false)); _

ここでこのメソッドを使用しています：

_public static String clean(String bodyHtml, String baseUri, Whitelist whitelist, Document.OutputSettings outputSettings) _

Whitelist.none()を渡すことにより、すべてのHTMLが確実に削除されます。

new OutputSettings().prettyPrint(false)を渡すことにより、出力が再フォーマットされず、改行が保持されることを確認します。

mkowa · Answer

Jsoupを使用してこれを試してください。

public static String cleanPreserveLineBreaks(String bodyHtml) { // get pretty printed html with preserved br and p tags String prettyPrintedBodyFragment = Jsoup.clean(bodyHtml, "", Whitelist.none().addTags("br", "p"), new OutputSettings().prettyPrint(true)); // get plain text with preserved line breaks by disabled prettyPrint return Jsoup.clean(prettyPrintedBodyFragment, "", Whitelist.none(), new OutputSettings().prettyPrint(false)); }

zeenosaur · Answer

Jsoup v1.11.2では、Element.wholeText()を使用できるようになりました。

サンプルコード：

_String cleanString = Jsoup.parse(htmlString).wholeText(); _

_user121196's_ answer は引き続き機能します。ただし、wholeText()はテキストの配置を保持します。

popcorny · Answer

指定された要素を横断できます

public String convertNodeToText(Element element) { final StringBuilder buffer = new StringBuilder(); new NodeTraversor(new NodeVisitor() { boolean isNewline = true; @Override public void head(Node node, int depth) { if (node instanceof TextNode) { TextNode textNode = (TextNode) node; String text = textNode.text().replace('\u00A0', ' ').trim(); if(!text.isEmpty()) { buffer.append(text); isNewline = false; } } else if (node instanceof Element) { Element element = (Element) node; if (!isNewline) { if((element.isBlock() || element.tagName().equals("br"))) { buffer.append("
"); isNewline = true; } } } } @Override public void tail(Node node, int depth) { } }).traverse(element); return buffer.toString(); }

そしてあなたのコードのために

String result = convertNodeToText(JSoup.parse(html))

Green Beret · Answer

text = Jsoup.parse(html.replaceAll("(?i)<br[^>]*>", "br2n")).text(); text = descrizione.replaceAll("br2n", "
");

html自体に「br2n」が含まれていない場合に機能します

そう、

text = Jsoup.parse(html.replaceAll("(?i)<br[^>]*>", "<pre>
</pre>")).text();

より信頼性が高く簡単に動作します。

Malcolm Smith · Answer

この質問に対する他の回答とコメントに基づいて、ここに来るほとんどの人は、HTMLドキュメントの適切にフォーマットされたプレーンテキスト表現を提供する一般的なソリューションを本当に探しているようです。私が知っていた。

幸いなことに、JSoupはすでにこれを実現する方法の非常に包括的な例を提供しています。 HtmlToPlainText.Java

サンプルFormattingVisitorは好みに合わせて簡単に調整でき、ほとんどのブロック要素と行の折り返しを扱います。

リンクの腐敗を避けるために、ここに Jonathan Hedley の完全なソリューションがあります：

package org.jsoup.examples; import org.jsoup.Jsoup; import org.jsoup.helper.StringUtil; import org.jsoup.helper.Validate; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.nodes.Node; import org.jsoup.nodes.TextNode; import org.jsoup.select.Elements; import org.jsoup.select.NodeTraversor; import org.jsoup.select.NodeVisitor; import Java.io.IOException; /** * HTML to plain-text. This example program demonstrates the use of jsoup to convert HTML input to lightly-formatted * plain-text. That is divergent from the general goal of jsoup's .text() methods, which is to get clean data from a * scrape. * <p> * Note that this is a fairly simplistic formatter -- for real world use you'll want to embrace and extend. * </p> * <p> * To invoke from the command line, assuming you've downloaded the jsoup jar to your current directory:</p> * <p><code>Java -cp jsoup.jar org.jsoup.examples.HtmlToPlainText url [selector]</code></p> * where <i>url</i> is the URL to fetch, and <i>selector</i> is an optional CSS selector. * * @author Jonathan Hedley, jonathan@hedley.net */ public class HtmlToPlainText { private static final String userAgent = "Mozilla/5.0 (jsoup)"; private static final int timeout = 5 * 1000; public static void main(String... args) throws IOException { Validate.isTrue(args.length == 1 || args.length == 2, "usage: Java -cp jsoup.jar org.jsoup.examples.HtmlToPlainText url [selector]"); final String url = args[0]; final String selector = args.length == 2 ? args[1] : null; // fetch the specified URL and parse to a HTML DOM Document doc = Jsoup.connect(url).userAgent(userAgent).timeout(timeout).get(); HtmlToPlainText formatter = new HtmlToPlainText(); if (selector != null) { Elements elements = doc.select(selector); // get each element that matches the CSS selector for (Element element : elements) { String plainText = formatter.getPlainText(element); // format that element to plain text System.out.println(plainText); } } else { // format the whole doc String plainText = formatter.getPlainText(doc); System.out.println(plainText); } } /** * Format an Element to plain-text * @param element the root element to format * @return formatted text */ public String getPlainText(Element element) { FormattingVisitor formatter = new FormattingVisitor(); NodeTraversor traversor = new NodeTraversor(formatter); traversor.traverse(element); // walk the DOM, and call .head() and .tail() for each node return formatter.toString(); } // the formatting rules, implemented in a breadth-first DOM traverse private class FormattingVisitor implements NodeVisitor { private static final int maxWidth = 80; private int width = 0; private StringBuilder accum = new StringBuilder(); // holds the accumulated text // hit when the node is first seen public void head(Node node, int depth) { String name = node.nodeName(); if (node instanceof TextNode) append(((TextNode) node).text()); // TextNodes carry all user-readable text in the DOM. else if (name.equals("li")) append("
 * "); else if (name.equals("dt")) append(" "); else if (StringUtil.in(name, "p", "h1", "h2", "h3", "h4", "h5", "tr")) append("
"); } // hit when all of the node's children (if any) have been visited public void tail(Node node, int depth) { String name = node.nodeName(); if (StringUtil.in(name, "br", "dd", "dt", "p", "h1", "h2", "h3", "h4", "h5")) append("
"); else if (name.equals("a")) append(String.format(" <%s>", node.absUrl("href"))); } // appends text to the string builder with a simple Word wrap method private void append(String text) { if (text.startsWith("
")) width = 0; // reset counter if starts with a newline. only from formats above, not in natural text if (text.equals(" ") && (accum.length() == 0 || StringUtil.in(accum.substring(accum.length() - 1), " ", "
"))) return; // don't accumulate long runs of empty spaces if (text.length() + width > maxWidth) { // won't fit, needs to wrap String words[] = text.split("\s+"); for (int i = 0; i < words.length; i++) { String Word = words[i]; boolean last = i == words.length - 1; if (!last) // insert a space if not the last Word Word = Word + " "; if (Word.length() + width > maxWidth) { // wrap and reset counter accum.append("
").append(Word); width = Word.length(); } else { accum.append(Word); width += Word.length(); } } } else { // fits as is, without need to wrap text accum.append(text); width += text.length(); } } @Override public String toString() { return accum.toString(); } } }

Andy Res · Answer

より複雑なHTMLの場合、上記のソリューションはどれも適切に機能しませんでした。改行を保持しながら変換を正常に行うことができました：

Document document = Jsoup.parse(myHtml); String text = new HtmlToPlainText().getPlainText(document);

（バージョン1.10.3）

abdolence · Answer

これは、htmlをテキストに変換する私のバージョンです（実際にはuser121196の回答の修正バージョン）。

これは単に改行を保持するだけでなく、テキストの書式設定や余分な改行、HTMLエスケープシンボルの削除も行い、HTMLからより良い結果を得ることができます（私の場合はメールから受け取ります）。

もともとScalaで書かれていますが、Javaに簡単に変更できます

def html2text( rawHtml : String ) : String = { val htmlDoc = Jsoup.parseBodyFragment( rawHtml, "/" ) htmlDoc.select("br").append("\nl") htmlDoc.select("div").prepend("\nl").append("\nl") htmlDoc.select("p").prepend("\nl\nl").append("\nl\nl") org.jsoup.parser.Parser.unescapeEntities( Jsoup.clean( htmlDoc.html(), "", Whitelist.none(), new org.jsoup.nodes.Document.OutputSettings().prettyPrint(true) ),false ). replaceAll("\\nl", "
"). replaceAll("
",""). replaceAll("
\s+
","
"). replaceAll("

+","

"). trim() }

Abhay Gupta · Answer

Jsoupを使用してこれを試してください。

 doc.outputSettings(new OutputSettings().prettyPrint(false)); //select all <br> tags and append 
 after that doc.select("br").after("\n"); //select all <p> tags and prepend 
 before that doc.select("p").before("\n"); //get the HTML from the document, and retaining original new lines String str = doc.html().replaceAll("\\n", "
");

manji · Answer

これを試して：

public String noTags(String str){ Document d = Jsoup.parse(str); TextNode tn = new TextNode(d.body().html(), ""); return tn.getWholeText(); }

Michael Bar-Sinai · Answer

textNodes()を使用して、テキストノードのリストを取得します。次に、をセパレーターとして連結します。 scalaこれに使用するコード、Javaポートは簡単なはずです：

val rawTxt = doc.body().getElementsByTag("div").first.textNodes() .asScala.mkString("<br />
")

Bevor · Answer

selectsと<pre>sを使用したuser121196とGreen Beretの回答に基づいて、私にとって有効な唯一の解決策は次のとおりです。

org.jsoup.nodes.Element elementWithHtml = .... elementWithHtml.select("br").append("<pre>
</pre>"); elementWithHtml.select("p").prepend("<pre>

</pre>"); elementWithHtml.text();

Chris6647 · Answer

/** * Recursive method to replace html br with Java 
. The recursive method ensures that the linebreaker can never end up pre-existing in the text being replaced. * @param html * @param linebreakerString * @return the html as String with proper Java newlines instead of br */ public static String replaceBrWithNewLine(String html, String linebreakerString){ String result = ""; if(html.contains(linebreakerString)){ result = replaceBrWithNewLine(html, linebreakerString+"1"); } else { result = Jsoup.parse(html.replaceAll("(?i)<br[^>]*>", linebreakerString)).text(); // replace and html line breaks with Java linebreak. result = result.replaceAll(linebreakerString, "
"); } return result; }

一時的な改行プレースホルダーとして使用したい文字列とともに、brを含む問題のhtmlを呼び出して使用します。例えば：

replaceBrWithNewLine(element.html(), "br2n")

再帰により、改行/改行のプレースホルダーとして使用する文字列が実際にソースhtmlに存在しないことが保証されます。これは、linkbreakerのプレースホルダー文字列がhtmlで見つからなくなるまで「1」を追加し続けるためです。 Jsoup.cleanメソッドが特殊文字に遭遇するようなフォーマットの問題はありません。