Как извлечь текст из разумного HTML?

Как извлечь текст из разумного HTML? ⇐ C#

1 сообщение • Страница 1 из 1

Anonymous

Сообщение Anonymous » 10 май 2026, 16:02

Мой вопрос похож на этот вопрос, но у меня больше ограничений:

Я знаю, что документы достаточно вменяемы.
они очень регулярны (все они взяты из одного и того же источника.
Мне нужно около 99% видимого текста.
около 99% вообще жизнеспособного текста (они более или менее RTF) преобразовано в HTML)
Меня не волнует форматирование или даже разрывы абзацев.

Существуют ли какие-либо инструменты для этого, или мне лучше просто использовать RegexBuddy и C#?

Я открыт для инструментов командной строки или пакетной обработки, а также библиотек C/C#/D.

Anonymous

1 сообщение • Страница 1 из 1

Вернуться в «C#»