Как извлечь текст из PDF на основе глав с помощью Python

Как извлечь текст из PDF на основе глав с помощью Python ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как извлечь текст из PDF на основе глав с помощью Python

Цитата

Сообщение Anonymous » 18 янв 2025, 10:05

Представьте, что у нас есть учебники по школьным предметам в формате PDF. Теперь я хочу извлечь данные из главы в формате PDF. но проблема в том, что все PDF-файлы не соответствуют одному и тому же шаблону. Я попробовал код, в котором извлекал текст на основе ключевого слова «Главы», но безуспешно. Есть ли какая-нибудь библиотека Python, которая может мне помочь?
Я проверил естественный порядок чтения PyMuPDF.
но опять же нам нужно указать здесь заголовок.
doc = pymupdf.open("some.pdf")
header = "Header" # text in header
footer = "Page %i of %i" # text in footer
for page in doc:
page.insert_text((50, 50), header) # insert header
page.insert_text( # insert footer 50 points above page bottom
(50, page.rect.height - 50),
footer % (page.number + 1, doc.page_count),
)

Подробнее здесь: https://stackoverflow.com/questions/793 ... ing-python

1737183919

Anonymous

Представьте, что у нас есть учебники по школьным предметам в формате PDF. Теперь я хочу извлечь данные из главы в формате PDF. но проблема в том, что все PDF-файлы не соответствуют одному и тому же шаблону. Я попробовал код, в котором извлекал текст на основе ключевого слова «Главы», но безуспешно. Есть ли какая-нибудь библиотека Python, которая может мне помочь?
Я проверил естественный порядок чтения PyMuPDF.
но опять же нам нужно указать здесь заголовок.
doc = pymupdf.open("some.pdf")
header = "Header"  # text in header
footer = "Page %i of %i"  # text in footer
for page in doc:
page.insert_text((50, 50), header)  # insert header
page.insert_text(  # insert footer 50 points above page bottom
(50, page.rect.height - 50),
footer % (page.number + 1, doc.page_count),
)
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79366691/how-to-extract-text-from-pdf-based-on-chapters-using-python[/url]