Как извлечь и объединить текст и таблицы из PDF с помощью AWS Textract

Как извлечь и объединить текст и таблицы из PDF с помощью AWS Textract ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как извлечь и объединить текст и таблицы из PDF с помощью AWS Textract

Цитата

Сообщение Anonymous » 29 май 2024, 09:29

Я использую пакет textractor для извлечения текста и таблицы, присутствующей в PDF-документе, через AWS Textract:

Код: Выделить всё

from textractor import Textractor
from textractor.data.constants import TextractFeatures

extractor = Textractor(region_name='us-east-1')
document = extractor.start_document_analysis(
file_source="s3://.pdf",
features=[TextractFeatures.TABLES],
)

text = document.document.pages[0].text
table_csv = document.document.pages[0].tables[0].to_csv()

Это хорошо работает. Однако я хочу объединить в одну текстовую строку (1) текст страницы с (2) таблицей на странице, но БЕЗ перекрывающегося текста. Прямо сейчас переменная text также содержит извлеченный текст из содержимого table_csv. Если я просто объединяю строки, информация будет дублироваться.
Есть ли для этого простой способ удалить перекрывающийся текст?

Подробнее здесь: https://stackoverflow.com/questions/757 ... s-textract

1716964194

Anonymous

Я использую пакет textractor для извлечения текста и таблицы, присутствующей в PDF-документе, через AWS Textract:
[code]from textractor import Textractor
from textractor.data.constants import TextractFeatures

extractor = Textractor(region_name='us-east-1')
document = extractor.start_document_analysis(
file_source="s3://.pdf",
features=[TextractFeatures.TABLES],
)

text = document.document.pages[0].text
table_csv = document.document.pages[0].tables[0].to_csv()
[/code]
Это хорошо работает. Однако я хочу объединить в одну текстовую строку (1) текст страницы с (2) таблицей на странице, но БЕЗ перекрывающегося текста. Прямо сейчас переменная text также содержит извлеченный текст из содержимого table_csv. Если я просто объединяю строки, информация будет дублироваться.
Есть ли для этого простой способ удалить перекрывающийся текст? 

Подробнее здесь: [url]https://stackoverflow.com/questions/75751158/how-to-extract-and-combine-text-and-tables-from-pdf-using-aws-textract[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Должен ли я использовать AWS Textract или программный подход для извлечения таблиц из текстовых PDF-файлов в .NET?

Последнее сообщение Anonymous « 11 окт 2024, 14:17
Добавлено в форуме C#

Anonymous » 11 окт 2024, 14:17 » в форуме C#

Я работаю с файлами PDF, связанными со страхованием , которые содержат структурированные таблицы. Это текстовые PDF-файлы (из них я могу копировать текст, а не изображения), и мне нужно извлекать данные с высокой точностью. У нас есть около 10–15...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
11 окт 2024, 14:17
Должен ли я использовать AWS Textract или программный подход для извлечения таблиц из текстовых PDF-файлов в .NET? [закр

Последнее сообщение Anonymous « 11 окт 2024, 16:01
Добавлено в форуме C#

Anonymous » 11 окт 2024, 16:01 » в форуме C#

Я работаю с файлами PDF, связанными со страхованием , которые содержат структурированные таблицы. Это текстовые PDF-файлы (из них я могу копировать текст, а не изображения), и мне нужно извлекать данные с высокой точностью. У нас есть около 10–15...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
11 окт 2024, 16:01
Должен ли я использовать AWS Textract или программный подход для извлечения таблиц из текстовых PDF-файлов в .NET [закры

Последнее сообщение Anonymous « 11 окт 2024, 18:53
Добавлено в форуме C#

Anonymous » 11 окт 2024, 18:53 » в форуме C#

Я работаю с файлами PDF, связанными со страхованием , которые содержат структурированные таблицы. Это текстовые PDF-файлы (из них я могу копировать текст, а не изображения), и мне нужно извлекать данные с высокой точностью. У нас есть около 10–15...

0 Ответы

27 Просмотры

Последнее сообщение Anonymous
11 окт 2024, 18:53
AWS Textract для извлечения информации о флажках

Последнее сообщение Anonymous « 09 окт 2024, 05:52
Добавлено в форуме Python

Anonymous » 09 окт 2024, 05:52 » в форуме Python

Документы с флажками, которые необходимо извлечь
Я пытаюсь извлечь вышеуказанный документ в формате json. В идеале я хочу, чтобы было указано, какой флажок в предложении установлен. Но в настоящее время то, что дает AWS Textract, приведено чуть...

0 Ответы

27 Просмотры

Последнее сообщение Anonymous
09 окт 2024, 05:52
AWS Textract обнаруживает строки, которые не блокируются

Последнее сообщение Anonymous « 14 окт 2024, 09:33
Добавлено в форуме Android

Anonymous » 14 окт 2024, 09:33 » в форуме Android

В настоящее время я использую Amplify Framework для Android и его плагин прогнозирования, который по сути представляет собой AWS Textract, для преобразования изображений в текст.
Раньше я использовал функцию распознавания текста Firebase, которая...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
14 окт 2024, 09:33

Вернуться в «Python»