Код: Выделить всё
from textractor import Textractor
from textractor.data.constants import TextractFeatures
extractor = Textractor(region_name='us-east-1')
document = extractor.start_document_analysis(
file_source="s3://.pdf",
features=[TextractFeatures.TABLES],
)
text = document.document.pages[0].text
table_csv = document.document.pages[0].tables[0].to_csv()
Есть ли для этого простой способ удалить перекрывающийся текст?
Подробнее здесь: https://stackoverflow.com/questions/757 ... s-textract