Должен ли я использовать AWS Textract или программный подход для извлечения таблиц из текстовых PDF-файлов в .NET? [закр

Должен ли я использовать AWS Textract или программный подход для извлечения таблиц из текстовых PDF-файлов в .NET? [закр ⇐ C#

1 сообщение • Страница 1 из 1

Anonymous

Должен ли я использовать AWS Textract или программный подход для извлечения таблиц из текстовых PDF-файлов в .NET? [закр

Цитата

Сообщение Anonymous » 11 окт 2024, 16:01

Я работаю с файлами PDF, связанными со страхованием, которые содержат структурированные таблицы. Это текстовые PDF-файлы (из них я могу копировать текст, а не изображения), и мне нужно извлекать данные с высокой точностью. У нас есть около 10–15 различных типов документов, которые в основном одинаковы, но могут меняться раз в год. Мы обрабатываем около 50 000 страниц в месяц на английском, немецком, французском и итальянском языках.
Требования:

.NET-решение для извлечения таблиц.
Высокая точность имеет решающее значение.
Мы уже используем AWS, поэтому Решение на базе AWS, такое как Textract, было бы идеальным.
Открыто для других инструментов оптического распознавания символов, если они обеспечивают более высокую точность/производительность.
Время разработки и стоимость также являются важными факторами, которые следует учитывать.

Вопросы:

< li>Необходимо ли здесь распознавание текста (например, AWS Textract) или мне следует использовать чисто программный подход, поскольку PDF-файлы основаны на тексте?
Как мне обрабатывать случайные изменения в структуре документа?< /li>
Любые другие вещи или советы, которые мне нужно рассмотреть при разработке подобных вещей.

Жду рекомендаций от любого, у кого есть опыт в подобных случаях!
Что я пробовал: я начал с изучения AWS Textract для извлечения таблиц, учитывая, что мы уже используем AWS. Однако я понял, что это может быть излишним, поскольку PDF-файлы основаны на тексте, а не на изображениях. Я также изучал Aspose.PDF и iText 7 для программного извлечения таблиц в .NET, но не был уверен, насколько хорошо они обрабатывают многоязычные документы (английский, немецкий, французский и итальянский).
Чего я ожидал: я ожидал решения, которое обеспечит высокую точность, особенно для таблиц в многоязычных PDF-файлах, без необходимости оптического распознавания символов, если только это не абсолютно необходимо.

Подробнее здесь: https://stackoverflow.com/questions/790 ... -from-text

1728651688

Anonymous

Я работаю с [b]файлами PDF, связанными со страхованием[/b], которые содержат структурированные таблицы. Это [b]текстовые PDF-файлы[/b] (из них я могу копировать текст, а не изображения), и мне нужно извлекать данные с высокой точностью. У нас есть около [b]10–15 различных типов документов[/b], которые в основном одинаковы, но могут меняться раз в год. Мы обрабатываем около [b]50 000 страниц в месяц на английском, немецком, французском и итальянском языках[/b].
Требования:
[list]
[*].NET-решение для извлечения таблиц.
[*]Высокая точность имеет решающее значение.
[*]Мы уже используем AWS, поэтому Решение на базе AWS, такое как Textract, было бы идеальным.
[*]Открыто для других инструментов оптического распознавания символов, если они обеспечивают более высокую точность/производительность.
[*][b]Время разработки и стоимость также являются важными факторами, которые следует учитывать[/b].
[/list]
Вопросы:
[list]
< li>Необходимо ли здесь распознавание текста (например, AWS Textract) или мне следует использовать чисто программный подход, поскольку PDF-файлы основаны на тексте?
[*]Как мне обрабатывать случайные изменения в структуре документа?< /li>
Любые другие вещи или советы, которые мне нужно рассмотреть при разработке подобных вещей.
[/list]
Жду рекомендаций от любого, у кого есть опыт в подобных случаях!
Что я пробовал: я начал с изучения AWS Textract для извлечения таблиц, учитывая, что мы уже используем AWS. Однако я понял, что это может быть излишним, поскольку PDF-файлы основаны на тексте, а не на изображениях. Я также изучал Aspose.PDF и iText 7 для программного извлечения таблиц в .NET, но не был уверен, насколько хорошо они обрабатывают многоязычные документы (английский, немецкий, французский и итальянский).
Чего я ожидал: я ожидал решения, которое обеспечит высокую точность, особенно для таблиц в многоязычных PDF-файлах, без необходимости оптического распознавания символов, если только это не абсолютно необходимо. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79077987/should-i-use-aws-textract-or-a-programmatic-approach-to-extract-tables-from-text[/url]