Как выделить кусок текста с помощью PyMupdfPython

Программы на Python
Ответить
Anonymous
 Как выделить кусок текста с помощью PyMupdf

Сообщение Anonymous »

У меня есть PDF-файл. Я читаю его через пакет PyMuPDF.
Я читаю текст и разбиваю его на куски. Итак, для приведенного ниже текстового снимка экрана на одной из страниц исходного PDF-файла я получаю текст, прочитанный следующим образом:
Изображение

Текст, который у меня есть на Python:

Код: Выделить всё

text_variable = cancer. Your team should include the following \nboard-certified experts:\n \n� A pulmonologist is a doctor who’s an \nexpert of lung diseases.\n \n� A thoracic radiologist is a doctor who’s \nan expert of imaging of the chest
Как видите, у него проблемы с чтением символов Юникода.
Теперь мне нужно найти приведенный выше текст на странице PDF, а затем выделить эти строки с помощью аннотации в PyMUPDF. Я попробовал ниже:

Код: Выделить всё

doc = fitz.open("/Users/abc.pdf") # open a document

page = doc.load_page(13)

#print(page.get_text())

text_variable = "cancer. Your team should include the following \nboard-certified experts:\n \n� A pulmonologist is a doctor who’s an \nexpert of lung diseases.\n \n� A thoracic radiologist is a doctor who’s \nan expert of imaging of the chest"

quads = page.search_for(text_variable, quads=True)

#Add a highlight annotation for each rectangle
page.add_highlight_annot(quads)
Как и следовало ожидать, он не сможет найти соответствующий текст на странице PDF, поскольку он не совсем совпадает из-за проблем с Unicode и escape-последовательностью.
Как мне заставить это работать?>

Подробнее здесь: https://stackoverflow.com/questions/765 ... ng-pymupdf
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»