Программисты Html
Anonymous
Как избежать окружающих HTML и головных тегов в JSoup Parse
Сообщение
Anonymous » 23 фев 2025, 16:23
Используя JSoup, я пытаюсь проанализировать заданный HTML -контент. После jsoup.parse () выходной выход HTML добавляет html , head и тег Body к вводу. Я просто хочу игнорировать их.
Пример ввода:
Код: Выделить всё
This [i]is[/i][/b] [i]my sentence[/i] of text.
[b]< /code>
java code: < /p>
import java.io.File;
import java.io.IOException;
import org.apache.commons.io.FileUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class HTMLParse {
public static void main(String args[]) throws IOException {
try{
File input = new File("/ab.html");
String html = FileUtils.readFileToString(input, null);
Document doc = Jsoup.parseBodyFragment(html);
doc.outputSettings().prettyPrint(false);
System.out.println(doc.html());
}
catch(Exception e){
e.printStackTrace();
}
}
}
фактический вывод:
Код: Выделить всё
This [i]is[/i][/b] [i]my sentence[/i] of text.
[b]
ожидаемый вывод:
Код: Выделить всё
This [i]is[/i][/b] [i]my sentence[/i] of text.
Как я могу помешать jsoup добавить эти теги?
Подробнее здесь:
https://stackoverflow.com/questions/261 ... soup-parse
1740317001
Anonymous
Используя JSoup, я пытаюсь проанализировать заданный HTML -контент. После jsoup.parse () выходной выход HTML добавляет html , head и тег Body к вводу. Я просто хочу игнорировать их. [b] [b] Пример ввода: [/b] [code]This [i]is[/i][/b] [i]my sentence[/i] of text. [b]< /code> java code: < /p> import java.io.File; import java.io.IOException; import org.apache.commons.io.FileUtils; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class HTMLParse { public static void main(String args[]) throws IOException { try{ File input = new File("/ab.html"); String html = FileUtils.readFileToString(input, null); Document doc = Jsoup.parseBodyFragment(html); doc.outputSettings().prettyPrint(false); System.out.println(doc.html()); } catch(Exception e){ e.printStackTrace(); } } } [/code] [b] фактический вывод: [/b] [code]This [i]is[/i][/b] [i]my sentence[/i] of text. [b] [/code] [b] ожидаемый вывод: [/b] [code]This [i]is[/i][/b] [i]my sentence[/i] of text. [/code] Как я могу помешать jsoup добавить эти теги? Подробнее здесь: [url]https://stackoverflow.com/questions/26173769/how-to-avoid-surrounding-html-and-head-tags-in-jsoup-parse[/url]