я использовал pdfplumber, а также попробовал с Llamareadmarkdown. Есть предложения?
Вот мой код < /p>
Код: Выделить всё
with pdfplumber.open(pdf_path) as pdf:
for page in pdf.pages[1:]:
tables = page.extract_table()
if tables:
df = pd.DataFrame(tables[1:], columns=tables[0])
for index, row in df.iterrows():
if rut in row.values:
return df.loc[[index]]
return None
Подробнее здесь: https://stackoverflow.com/questions/794 ... bular-pdfs