Должен ли я использовать AWS Textract или программный подход для извлечения таблиц из текстовых PDF-файлов в .NET?C#

Место общения программистов C#
Ответить Пред. темаСлед. тема
Anonymous
 Должен ли я использовать AWS Textract или программный подход для извлечения таблиц из текстовых PDF-файлов в .NET?

Сообщение Anonymous »

Я работаю с файлами PDF, связанными со страхованием, которые содержат структурированные таблицы. Это текстовые PDF-файлы (из них я могу копировать текст, а не изображения), и мне нужно извлекать данные с высокой точностью. У нас есть около 10–15 различных типов документов, которые в основном одинаковы, но могут меняться раз в год. Мы обрабатываем около 50 000 страниц в месяц на английском, немецком, французском и итальянском языках.
Требования:
  • .NET-решение для извлечения таблиц.
  • Высокая точность имеет решающее значение.
  • Мы уже используем AWS, поэтому Решение на базе AWS, такое как Textract, было бы идеальным.
  • Открыто для других инструментов оптического распознавания символов, если они обеспечивают более высокую точность/производительность.
  • Время разработки и стоимость также являются важными факторами, которые следует учитывать.
Вопросы:
  • < li>Необходимо ли здесь распознавание текста (например, AWS Textract) или мне следует использовать чисто программный подход, поскольку PDF-файлы основаны на тексте?
  • Каковы лучшие библиотеки или инструменты .NET для работы с таблицами? извлечение из PDF-файлов?
  • Как мне обрабатывать случайные изменения в структуре документа?
  • Любые другие вещи или советы, которые мне нужно рассмотреть при разработке такого рода вещей.
Жду рекомендаций от тех, кто имеет опыт в подобных случаях!
Что я пробовал: я начал с изучения AWS Textract для извлечения таблиц, учитывая, что мы уже используем AWS. Однако я понял, что это может быть излишним, поскольку PDF-файлы основаны на тексте, а не на изображениях. Я также изучал Aspose.PDF и iText 7 для программного извлечения таблиц в .NET, но не был уверен, насколько хорошо они обрабатывают многоязычные документы (английский, немецкий, французский и итальянский).
Чего я ожидал: я ожидал решения, которое обеспечит высокую точность, особенно для таблиц в многоязычных PDF-файлах, без необходимости оптического распознавания символов, если только это не абсолютно необходимо.

Подробнее здесь: https://stackoverflow.com/questions/790 ... -from-text
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «C#»