- Я знаю, что документы достаточно вменяемы.
- они очень регулярны (все они взяты из одного и того же источника.
- Мне нужно около 99% видимого текста.
- около 99% вообще жизнеспособного текста (они более или менее RTF) преобразовано в HTML)
- Меня не волнует форматирование или даже разрывы абзацев.
Я открыт для инструментов командной строки или пакетной обработки, а также библиотек C/C#/D.