Исключительно применить сочетание рисунков Java для извлечения элементов HTML, игнорируйте некоторые символы

Исключительно применить сочетание рисунков Java для извлечения элементов HTML, игнорируйте некоторые символы ⇐ Html

1 сообщение • Страница 1 из 1

Anonymous

Исключительно применить сочетание рисунков Java для извлечения элементов HTML, игнорируйте некоторые символы

Цитата

Сообщение Anonymous » 19 авг 2025, 13:13

Я использую этот код: 

Pattern pat_1 = Pattern.compile("class=\"\"pinyin\"\">(.*?)");
Matcher mat_1 = pat_1.matcher( text );
while( mat_1.find() )
{
System.out.println( mat_1.group(1) );
}
< /code>

Это источник входных данных. Принесение соответствующего: 

拼音：xīSetduyin('Duyin/xi1')　注音：ㄒㄧSetduyin('Duyin/xi1')

简体部首：丨　部首笔画：1　总笔画：8
繁体部首：卜　部首笔画：2　总笔画：8
康熙字典笔画( 卥:8； )
< /code>

Проблема с моим кодом состоит в том, что она также поднимает ㄒㄧ < /code>, поскольку предыдущие элементы и процедурные элементы идентичны. Как я мог исключить ㄒㄧ и только выбрать Xī . Может быть, я могу использовать тег
, потому что это что -то уникальное для первого один раз, но это требует идентификации новой строки, а также игнорировать 拼音：： Как это сделать? Я играл с regex101.com, но я еще не смог прикрепить его. 

Итак, чтобы быть ясным прямо сейчас, вывод этого кода Java - 

xī
ㄒㄧ
< /code>

Но я хочу, чтобы это было только 

xī

Подробнее здесь: https://stackoverflow.com/questions/284 ... e-some-cha

1755598405

Anonymous

 Я использую этот код: < /p>

Pattern pat_1 = Pattern.compile("class=\"\"pinyin\"\">(.*?)");
Matcher mat_1 = pat_1.matcher( text );
while( mat_1.find() )
{
System.out.println( mat_1.group(1) );
}
< /code>

Это источник входных данных. Принесение соответствующего: < /p>



拼音：xīSetduyin('Duyin/xi1')　注音：ㄒㄧSetduyin('Duyin/xi1')

简体部首：丨　部首笔画：1　总笔画：8
繁体部首：卜　部首笔画：2　总笔画：8
康熙字典笔画( 卥:8； )
< /code>

Проблема с моим кодом состоит в том, что она также поднимает ㄒㄧ < /code>, поскольку предыдущие элементы и процедурные элементы идентичны. Как я мог исключить ㄒㄧ  и только выбрать Xī . Может быть, я могу использовать тег
, потому что это что -то уникальное для первого один раз, но это требует идентификации новой строки, а также игнорировать 拼音 ： ：  Как это сделать? Я играл с regex101.com, но я еще не смог прикрепить его. < /p>

Итак, чтобы быть ясным прямо сейчас, вывод этого кода Java - < /p>

xī
ㄒㄧ
< /code>

Но я хочу, чтобы это было только < /p>

xī
 

Подробнее здесь: [url]https://stackoverflow.com/questions/28471220/exclusively-apply-java-pattern-matcher-to-extract-html-elements-ignore-some-cha[/url]