Как избежать окружающих HTML и головных тегов в JSoup Parse

Как избежать окружающих HTML и головных тегов в JSoup Parse ⇐ Html

1 сообщение • Страница 1 из 1

Anonymous

Как избежать окружающих HTML и головных тегов в JSoup Parse

Цитата

Сообщение Anonymous » 23 фев 2025, 16:23

Используя JSoup, я пытаюсь проанализировать заданный HTML -контент. После jsoup.parse () выходной выход HTML добавляет html , head и тег Body к вводу. Я просто хочу игнорировать их. Пример ввода:

Код: Выделить всё

This [i]is[/i][/b] [i]my sentence[/i] of text.
[b]< /code>
java code: < /p>
import java.io.File;
import java.io.IOException;

import org.apache.commons.io.FileUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class HTMLParse {

public static void main(String args[]) throws IOException {
try{
File input = new File("/ab.html");
String html = FileUtils.readFileToString(input, null);

Document doc = Jsoup.parseBodyFragment(html);
doc.outputSettings().prettyPrint(false);
System.out.println(doc.html());
}
catch(Exception e){
e.printStackTrace();
}
}
}

фактический вывод:

Код: Выделить всё

This [i]is[/i][/b] [i]my sentence[/i] of text.
[b]

ожидаемый вывод:

Код: Выделить всё

This [i]is[/i][/b] [i]my sentence[/i] of text.

Как я могу помешать jsoup добавить эти теги?

Подробнее здесь: https://stackoverflow.com/questions/261 ... soup-parse

1740317001

Anonymous

 Используя JSoup, я пытаюсь проанализировать заданный HTML -контент. После jsoup.parse ()  выходной выход HTML добавляет html , head  и тег Body  к вводу. Я просто хочу игнорировать их.  [b]  [b] Пример ввода: [/b] 
[code]This [i]is[/i][/b] [i]my sentence[/i] of text.
[b]< /code>
java code: < /p>
import java.io.File;
import java.io.IOException;

import org.apache.commons.io.FileUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class HTMLParse {

public static void main(String args[]) throws IOException {
try{
File input = new File("/ab.html");
String html = FileUtils.readFileToString(input, null);

Document doc = Jsoup.parseBodyFragment(html);
doc.outputSettings().prettyPrint(false);
System.out.println(doc.html());
}
catch(Exception e){
e.printStackTrace();
}
}
}
[/code]
[b] фактический вывод: [/b]
[code]This [i]is[/i][/b] [i]my sentence[/i] of text.
[b]    
[/code]
[b] ожидаемый вывод: [/b] 
[code]This [i]is[/i][/b] [i]my sentence[/i] of text.
[/code]
Как я могу помешать jsoup добавить эти теги?  

Подробнее здесь: [url]https://stackoverflow.com/questions/26173769/how-to-avoid-surrounding-html-and-head-tags-in-jsoup-parse[/url]