Должен ли я использовать AWS Textract или программный подход для извлечения таблиц из текстовых PDF-файлов в .NET? - Цифровое Кемерово

Должен ли я использовать AWS Textract или программный подход для извлечения таблиц из текстовых PDF-файлов в .NET? ⇐ C#

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Должен ли я использовать AWS Textract или программный подход для извлечения таблиц из текстовых PDF-файлов в .NET?

Цитата

Сообщение Anonymous » 11 окт 2024, 14:17

Я работаю с файлами PDF, связанными со страхованием, которые содержат структурированные таблицы. Это текстовые PDF-файлы (из них я могу копировать текст, а не изображения), и мне нужно извлекать данные с высокой точностью. У нас есть около 10–15 различных типов документов, которые в основном одинаковы, но могут меняться раз в год. Мы обрабатываем около 50 000 страниц в месяц на английском, немецком, французском и итальянском языках.
Требования:

.NET-решение для извлечения таблиц.
Высокая точность имеет решающее значение.
Мы уже используем AWS, поэтому Решение на базе AWS, такое как Textract, было бы идеальным.
Открыто для других инструментов оптического распознавания символов, если они обеспечивают более высокую точность/производительность.
Время разработки и стоимость также являются важными факторами, которые следует учитывать.

Вопросы:

< li>Необходимо ли здесь распознавание текста (например, AWS Textract) или мне следует использовать чисто программный подход, поскольку PDF-файлы основаны на тексте?
Каковы лучшие библиотеки или инструменты .NET для работы с таблицами? извлечение из PDF-файлов?
Как мне обрабатывать случайные изменения в структуре документа?
Любые другие вещи или советы, которые мне нужно рассмотреть при разработке такого рода вещей.

Жду рекомендаций от тех, кто имеет опыт в подобных случаях!
Что я пробовал: я начал с изучения AWS Textract для извлечения таблиц, учитывая, что мы уже используем AWS. Однако я понял, что это может быть излишним, поскольку PDF-файлы основаны на тексте, а не на изображениях. Я также изучал Aspose.PDF и iText 7 для программного извлечения таблиц в .NET, но не был уверен, насколько хорошо они обрабатывают многоязычные документы (английский, немецкий, французский и итальянский).
Чего я ожидал: я ожидал решения, которое обеспечит высокую точность, особенно для таблиц в многоязычных PDF-файлах, без необходимости оптического распознавания символов, если только это не абсолютно необходимо.

Подробнее здесь: https://stackoverflow.com/questions/790 ... -from-text

Реклама

1728645459

Anonymous

Я работаю с [b]файлами PDF, связанными со страхованием[/b], которые содержат структурированные таблицы. Это [b]текстовые PDF-файлы[/b] (из них я могу копировать текст, а не изображения), и мне нужно извлекать данные с высокой точностью. У нас есть около [b]10–15 различных типов документов[/b], которые в основном одинаковы, но могут меняться раз в год. Мы обрабатываем около [b]50 000 страниц в месяц на английском, немецком, французском и итальянском языках[/b].
Требования:
[list]
[*].NET-решение для извлечения таблиц.
[*]Высокая точность имеет решающее значение.
[*]Мы уже используем AWS, поэтому Решение на базе AWS, такое как Textract, было бы идеальным.
[*]Открыто для других инструментов оптического распознавания символов, если они обеспечивают более высокую точность/производительность.
[*][b]Время разработки и стоимость также являются важными факторами, которые следует учитывать[/b].
[/list]
Вопросы:
[list]
< li>Необходимо ли здесь распознавание текста (например, AWS Textract) или мне следует использовать чисто программный подход, поскольку PDF-файлы основаны на тексте?
[*]Каковы лучшие библиотеки или инструменты .NET для работы с таблицами? извлечение из PDF-файлов?
[*]Как мне обрабатывать случайные изменения в структуре документа?
[*]Любые другие вещи или советы, которые мне нужно рассмотреть при разработке такого рода вещей.
[/list]
Жду рекомендаций от тех, кто имеет опыт в подобных случаях!
Что я пробовал: я начал с изучения AWS Textract для извлечения таблиц, учитывая, что мы уже используем AWS. Однако я понял, что это может быть излишним, поскольку PDF-файлы основаны на тексте, а не на изображениях. Я также изучал Aspose.PDF и iText 7 для программного извлечения таблиц в .NET, но не был уверен, насколько хорошо они обрабатывают многоязычные документы (английский, немецкий, французский и итальянский).
Чего я ожидал: я ожидал решения, которое обеспечит высокую точность, особенно для таблиц в многоязычных PDF-файлах, без необходимости оптического распознавания символов, если только это не абсолютно необходимо. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79077987/should-i-use-aws-textract-or-a-programmatic-approach-to-extract-tables-from-text[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Должен ли я использовать AWS Textract или программный подход для извлечения таблиц из текстовых PDF-файлов в .NET? [закр

Последнее сообщение Anonymous « 11 окт 2024, 16:01
Добавлено в форуме C#

Anonymous » 11 окт 2024, 16:01 » в форуме C#

Я работаю с файлами PDF, связанными со страхованием , которые содержат структурированные таблицы. Это текстовые PDF-файлы (из них я могу копировать текст, а не изображения), и мне нужно извлекать данные с высокой точностью. У нас есть около 10–15...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
11 окт 2024, 16:01
Должен ли я использовать AWS Textract или программный подход для извлечения таблиц из текстовых PDF-файлов в .NET [закры

Последнее сообщение Anonymous « 11 окт 2024, 18:53
Добавлено в форуме C#

Anonymous » 11 окт 2024, 18:53 » в форуме C#

Я работаю с файлами PDF, связанными со страхованием , которые содержат структурированные таблицы. Это текстовые PDF-файлы (из них я могу копировать текст, а не изображения), и мне нужно извлекать данные с высокой точностью. У нас есть около 10–15...

0 Ответы

27 Просмотры

Последнее сообщение Anonymous
11 окт 2024, 18:53
AWS Textract для извлечения информации о флажках

Последнее сообщение Anonymous « 09 окт 2024, 05:52
Добавлено в форуме Python

Anonymous » 09 окт 2024, 05:52 » в форуме Python

Документы с флажками, которые необходимо извлечь
Я пытаюсь извлечь вышеуказанный документ в формате json. В идеале я хочу, чтобы было указано, какой флажок в предложении установлен. Но в настоящее время то, что дает AWS Textract, приведено чуть...

0 Ответы

26 Просмотры

Последнее сообщение Anonymous
09 окт 2024, 05:52
Как извлечь и объединить текст и таблицы из PDF с помощью AWS Textract

Последнее сообщение Anonymous « 29 май 2024, 09:29
Добавлено в форуме Python

Anonymous » 29 май 2024, 09:29 » в форуме Python

Я использую пакет textractor для извлечения текста и таблицы, присутствующей в PDF-документе, через AWS Textract:
from textractor import Textractor
from textractor.data.constants import TextractFeatures

extractor =...

0 Ответы

33 Просмотры

Последнее сообщение Anonymous
29 май 2024, 09:29
AWS Textract обнаруживает строки, которые не блокируются

Последнее сообщение Anonymous « 14 окт 2024, 09:33
Добавлено в форуме Android

Anonymous » 14 окт 2024, 09:33 » в форуме Android

В настоящее время я использую Amplify Framework для Android и его плагин прогнозирования, который по сути представляет собой AWS Textract, для преобразования изображений в текст.
Раньше я использовал функцию распознавания текста Firebase, которая...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
14 окт 2024, 09:33

Вернуться в «C#»

Programmiererforum