PDF_Doc
Я работал с библиотекой pdfplumber для извлечения текста из документов PDF, и все было нормально, однако в документах, над которыми я сейчас работаю, я получаю только пробелы и много (cid:x) вместо текста. Есть решение?
Спасибо
with pdfplumber.open(fatura) as pdf:
lista_paginas = pdf.pages
fatura_individual = ''
for pagina in lista_paginas[:len(lista_paginas)]:
fatura_individual += pagina.extract_text()
PDF_Doc Я работал с библиотекой pdfplumber для извлечения текста из документов PDF, и все было нормально, однако в документах, над которыми я сейчас работаю, я получаю только пробелы и много (cid:x) вместо текста. Есть решение? Спасибо [code]with pdfplumber.open(fatura) as pdf: lista_paginas = pdf.pages
fatura_individual = '' for pagina in lista_paginas[:len(lista_paginas)]: fatura_individual += pagina.extract_text() [/code] [code] (cid:12)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:16) [/code] Просто хочу извлечь полный текст