Как выделить кусок текста с помощью PyMupdf

Как выделить кусок текста с помощью PyMupdf ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как выделить кусок текста с помощью PyMupdf

Цитата

Сообщение Anonymous » 04 янв 2026, 03:34

У меня есть PDF-файл. Я читаю его через пакет PyMuPDF.
Я читаю текст и разбиваю его на куски. Итак, для приведенного ниже текстового снимка экрана на одной из страниц исходного PDF-файла я получаю текст, прочитанный следующим образом:

Текст, который у меня есть на Python:

Код: Выделить всё

text_variable = cancer. Your team should include the following \nboard-certified experts:\n \n� A pulmonologist is a doctor who’s an \nexpert of lung diseases.\n \n� A thoracic radiologist is a doctor who’s \nan expert of imaging of the chest

Как видите, у него проблемы с чтением символов Юникода.
Теперь мне нужно найти приведенный выше текст на странице PDF, а затем выделить эти строки с помощью аннотации в PyMUPDF. Я попробовал ниже:

Код: Выделить всё

doc = fitz.open("/Users/abc.pdf") # open a document

page = doc.load_page(13)

#print(page.get_text())

text_variable = "cancer. Your team should include the following \nboard-certified experts:\n \n� A pulmonologist is a doctor who’s an \nexpert of lung diseases.\n \n� A thoracic radiologist is a doctor who’s \nan expert of imaging of the chest"

quads = page.search_for(text_variable, quads=True)

#Add a highlight annotation for each rectangle
page.add_highlight_annot(quads)

Как и следовало ожидать, он не сможет найти соответствующий текст на странице PDF, поскольку он не совсем совпадает из-за проблем с Unicode и escape-последовательностью.
Как мне заставить это работать?>

Подробнее здесь: https://stackoverflow.com/questions/765 ... ng-pymupdf

1767486884

Anonymous

У меня есть PDF-файл. Я читаю его через пакет PyMuPDF.
Я читаю текст и разбиваю его на куски. Итак, для приведенного ниже текстового снимка экрана на одной из страниц исходного PDF-файла я получаю текст, прочитанный следующим образом:
[img]https://i.sstatic.net/REcJJ.png[/img]

Текст, который у меня есть на Python:
[code]text_variable = cancer. Your team should include the following \nboard-certified experts:\n \n� A pulmonologist is a doctor who’s an \nexpert of lung diseases.\n \n� A thoracic radiologist is a doctor who’s \nan expert of imaging of the chest
[/code]
Как видите, у него проблемы с чтением символов Юникода.
Теперь мне нужно найти приведенный выше текст на странице PDF, а затем выделить эти строки с помощью аннотации в PyMUPDF. Я попробовал ниже:
[code]doc = fitz.open("/Users/abc.pdf") # open a document

page = doc.load_page(13)

#print(page.get_text())

text_variable = "cancer. Your team should include the following \nboard-certified experts:\n \n� A pulmonologist is a doctor who’s an \nexpert of lung diseases.\n \n� A thoracic radiologist is a doctor who’s \nan expert of imaging of the chest"

quads = page.search_for(text_variable, quads=True)

#Add a highlight annotation for each rectangle
page.add_highlight_annot(quads)
[/code]
Как и следовало ожидать, он не сможет найти соответствующий текст на странице PDF, поскольку он не совсем совпадает из-за проблем с Unicode и escape-последовательностью.
Как мне заставить это работать?> 

Подробнее здесь: [url]https://stackoverflow.com/questions/76511081/how-to-highlight-a-blob-of-text-using-pymupdf[/url]