Как избежать окружающих HTML и головных тегов в JSoup Parse

Как избежать окружающих HTML и головных тегов в JSoup Parse ⇐ JAVA

1 сообщение • Страница 1 из 1

Anonymous

Как избежать окружающих HTML и головных тегов в JSoup Parse

Сообщение Anonymous » 23 фев 2025, 16:23

Используя JSoup, я пытаюсь проанализировать заданный HTML -контент. После jsoup.parse () выходной выход HTML добавляет html , head и тег Body к вводу. Я просто хочу игнорировать их. Пример ввода:

Код: Выделить всё

This [i]is[/i][/b] [i]my sentence[/i] of text.
[b]< /code>
java code: < /p>
import java.io.File;
import java.io.IOException;

import org.apache.commons.io.FileUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class HTMLParse {

public static void main(String args[]) throws IOException {
try{
File input = new File("/ab.html");
String html = FileUtils.readFileToString(input, null);

Document doc = Jsoup.parseBodyFragment(html);
doc.outputSettings().prettyPrint(false);
System.out.println(doc.html());
}
catch(Exception e){
e.printStackTrace();
}
}
}

фактический вывод:

Код: Выделить всё

This [i]is[/i][/b] [i]my sentence[/i] of text.
[b]

ожидаемый вывод:

Код: Выделить всё

This [i]is[/i][/b] [i]my sentence[/i] of text.

Как я могу помешать jsoup добавить эти теги?

Подробнее здесь: https://stackoverflow.com/questions/261 ... soup-parse

Anonymous

1 сообщение • Страница 1 из 1

Вернуться в «JAVA»