Как извлечь текст из разумного HTML?C#

Место общения программистов C#
Anonymous
Как извлечь текст из разумного HTML?

Сообщение Anonymous »

Мой вопрос похож на этот вопрос, но у меня больше ограничений:
  • Я знаю, что документы достаточно вменяемы.
  • они очень регулярны (все они взяты из одного и того же источника.
  • Мне нужно около 99% видимого текста.
  • около 99% вообще жизнеспособного текста (они более или менее RTF) преобразовано в HTML)
  • Меня не волнует форматирование или даже разрывы абзацев.
Существуют ли какие-либо инструменты для этого, или мне лучше просто использовать RegexBuddy и C#?

Я открыт для инструментов командной строки или пакетной обработки, а также библиотек C/C#/D.

Вернуться в «C#»