Я работаю над Java-приложением, в котором мне нужно обрабатывать HTML-контент. Мне нужно регулярное выражение, которое может правильно сопоставлять вложенные теги HTML. Вот пример HTML-контента, с которым я работаю:
Код: Выделить всё
Some bold[/b] text and [i] italic [/i] text.
Another [url=#]link[/url] inside span
Я хочу сопоставить весь тег вместе с его вложенным содержимым, включая все дочерние теги. Я пробовал несколько шаблонов регулярных выражений, но ни один из них, похоже, не обрабатывает вложенные теги правильно. Вот что я пробовал:
Код: Выделить всё
String regex = "(.*?)";
Pattern p = Pattern.compile(regex, Pattern.DOTALL);
Matcher m = p.matcher(htmlContent);
while(m.find()){
System.out.println(matcher.group());
}
Этот шаблон соответствует только внешнему тегу и неправильно фиксирует вложенные вложенные теги. Как написать шаблон регулярного выражения, который корректирует и извлекает содержимое вложенных HTML-тегов?
Подробнее здесь:
https://stackoverflow.com/questions/787 ... pplication