Требования:
- .NET-решение для извлечения таблиц.
- Высокая точность имеет решающее значение.
- Мы уже используем AWS, поэтому Решение на базе AWS, такое как Textract, было бы идеальным.
- Открыто для других инструментов оптического распознавания символов, если они обеспечивают более высокую точность/производительность.
- Время разработки и стоимость также являются важными факторами, которые следует учитывать.
- < li>Необходимо ли здесь распознавание текста (например, AWS Textract) или мне следует использовать чисто программный подход, поскольку PDF-файлы основаны на тексте?
- Как мне обрабатывать случайные изменения в структуре документа?< /li>
Любые другие вещи или советы, которые мне нужно рассмотреть при разработке подобных вещей.
Что я пробовал: я начал с изучения AWS Textract для извлечения таблиц, учитывая, что мы уже используем AWS. Однако я понял, что это может быть излишним, поскольку PDF-файлы основаны на тексте, а не на изображениях. Я также изучал Aspose.PDF и iText 7 для программного извлечения таблиц в .NET, но не был уверен, насколько хорошо они обрабатывают многоязычные документы (английский, немецкий, французский и итальянский).
Чего я ожидал: я ожидал решения, которое обеспечит высокую точность, особенно для таблиц в многоязычных PDF-файлах, без необходимости оптического распознавания символов, если только это не абсолютно необходимо.
Подробнее здесь: https://stackoverflow.com/questions/790 ... -from-text