Как решить (cid:x) извлечение текста pdfplumber Python

Как решить (cid:x) извлечение текста pdfplumber Python ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как решить (cid:x) извлечение текста pdfplumber Python

Цитата

Сообщение Anonymous » 27 ноя 2024, 20:36

PDF_Doc
Я работал с библиотекой pdfplumber для извлечения текста из документов PDF, и все было нормально, однако в документах, над которыми я сейчас работаю, я получаю только пробелы и много (cid:x) вместо текста. Есть решение?
Спасибо

Код: Выделить всё

with pdfplumber.open(fatura) as pdf:
lista_paginas = pdf.pages

fatura_individual = ''
for pagina in lista_paginas[:len(lista_paginas)]:
fatura_individual += pagina.extract_text()

Код: Выделить всё

(cid:12)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:16)

Просто хочу извлечь полный текст

Подробнее здесь: https://stackoverflow.com/questions/744 ... extraction

1732728968

Anonymous

PDF_Doc
Я работал с библиотекой pdfplumber для извлечения текста из документов PDF, и все было нормально, однако в документах, над которыми я сейчас работаю, я получаю только пробелы и много (cid:x) вместо текста. Есть решение?
Спасибо
[code]with pdfplumber.open(fatura) as pdf:
lista_paginas = pdf.pages

fatura_individual = ''
for pagina in lista_paginas[:len(lista_paginas)]:
fatura_individual += pagina.extract_text()
[/code]
[code]
(cid:12)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0),(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:16)
[/code]
Просто хочу извлечь полный текст 

Подробнее здесь: [url]https://stackoverflow.com/questions/74416930/how-to-solve-cidx-pdfplumber-python-text-extraction[/url]