Как избежать окружающих HTML и головных тегов в JSoup ParseJAVA

Программисты JAVA общаются здесь
Anonymous
Как избежать окружающих HTML и головных тегов в JSoup Parse

Сообщение Anonymous »

Используя JSoup, я пытаюсь проанализировать заданный HTML -контент. После jsoup.parse () выходной выход HTML добавляет html , head и тег Body к вводу. Я просто хочу игнорировать их. Пример ввода:

Код: Выделить всё

This [i]is[/i][/b] [i]my sentence[/i] of text.
[b]< /code>
java code: < /p>
import java.io.File;
import java.io.IOException;

import org.apache.commons.io.FileUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class HTMLParse {

public static void main(String args[]) throws IOException {
try{
File input = new File("/ab.html");
String html = FileUtils.readFileToString(input, null);

Document doc = Jsoup.parseBodyFragment(html);
doc.outputSettings().prettyPrint(false);
System.out.println(doc.html());
}
catch(Exception e){
e.printStackTrace();
}
}
}
фактический вывод:

Код: Выделить всё

This [i]is[/i][/b] [i]my sentence[/i] of text.
[b]    
ожидаемый вывод:

Код: Выделить всё

This [i]is[/i][/b] [i]my sentence[/i] of text.
Как я могу помешать jsoup добавить эти теги?

Подробнее здесь: https://stackoverflow.com/questions/261 ... soup-parse

Вернуться в «JAVA»