Извлечение текста с использованием флагов для выделения жирного/курсивного шрифта с использованием PyMUPDF

Извлечение текста с использованием флагов для выделения жирного/курсивного шрифта с использованием PyMUPDF ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Извлечение текста с использованием флагов для выделения жирного/курсивного шрифта с использованием PyMUPDF

Цитата

Сообщение Anonymous » 29 мар 2024, 11:24

Я пытаюсь извлечь элементы текста, выделенные жирным шрифтом, из PDF-файлов с помощью PyMUPDF 1.18.14. Я надеялся, что это сработает, поскольку из документации я понимаю, что flags=4 предназначен для жирного шрифта.

Код: Выделить всё

page = doc[1]
text = page.get_text(flags=4)
print(text)

Но он печатает весь текст на странице, а не только жирный текст.
При использовании TextPage.extractDICT() (или Page.get_text («dict»)) вот так:-

Код: Выделить всё

page.get_text("dict", flags=11)["blocks"]

Флаг работает, но мне трудно понять, что он делает. Возможно, переключение между блоками изображения и текста.
Span
Похоже, вам нужно добраться до диапазона code>, чтобы иметь доступ к флагам.

Код: Выделить всё






[img]https://i.stack.imgur.com/rr6Cb.png[/img]
Тогда вы можете сделать что-то вроде этого: я использовал flags=20

в теге span, чтобы получить жирный шрифт.

Код: Выделить всё

page = doc[1]
blocks = page.get_text("dict", flags=11)["blocks"]
for b in blocks:  # iterate through the text blocks
for l in b["lines"]:  # iterate through the text lines
for s in l["spans"]:  # iterate through the text spans
if s["flags"] == 20:  # 20 targets bold
print(s)

Но, похоже, до этого еще далеко.
Поэтому мой вопрос: это лучший способ найти жирные элементы или я что-то упускаю ?
Было бы здорово иметь возможность искать элементы, выделенные жирным шрифтом, с помощью page.search_for()

Подробнее здесь: https://stackoverflow.com/questions/683 ... ng-pymupdf

1711700653

Anonymous

Я пытаюсь извлечь элементы текста, выделенные жирным шрифтом, из PDF-файлов с помощью PyMUPDF 1.18.14. Я надеялся, что это сработает, поскольку из документации я понимаю, что flags=4 предназначен для жирного шрифта.
[code]page = doc[1]
text = page.get_text(flags=4)
print(text)
[/code]
Но он печатает весь текст на странице, а не только жирный текст.
При использовании TextPage.extractDICT() (или Page.get_text («dict»)) вот так:-
[code]page.get_text("dict", flags=11)["blocks"]
[/code]
Флаг работает, но мне трудно понять, что он делает. Возможно, переключение между блоками изображения и текста.
[b]Span[/b]
Похоже, вам нужно добраться до диапазона code>, чтобы иметь доступ к флагам.
[code]





[img]https://i.stack.imgur.com/rr6Cb.png[/img]
Тогда вы можете сделать что-то вроде этого: я использовал flags=20[/code] в теге span, чтобы получить жирный шрифт.
[code]page = doc[1]
blocks = page.get_text("dict", flags=11)["blocks"]
for b in blocks:  # iterate through the text blocks
for l in b["lines"]:  # iterate through the text lines
for s in l["spans"]:  # iterate through the text spans
if s["flags"] == 20:  # 20 targets bold
print(s)
[/code]
Но, похоже, до этого еще далеко.
Поэтому мой вопрос: это лучший способ найти жирные элементы или я что-то упускаю ?
Было бы здорово иметь возможность искать элементы, выделенные жирным шрифтом, с помощью page.search_for() 

Подробнее здесь: [url]https://stackoverflow.com/questions/68382847/extracting-text-using-flags-to-focus-on-bold-italic-font-using-pymupdf[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как я могу реализовать Markdown в JavaScript для жирного и курсивного курса

Последнее сообщение Anonymous « 10 мар 2025, 14:10
Добавлено в форуме Javascript

Anonymous » 10 мар 2025, 14:10 » в форуме Javascript

Я пытаюсь реализовать это для жирных и курсивных стилей отметки, при выборе отдельного текста или всего предложения, стиль должен применяться и переключаться, но с моим текущим кодом он не работает, как ожидалось. Стиль.

Text Editor with Toggle...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
10 мар 2025, 14:10
TCPDF не может применять стиль калибрийского шрифта курсивного цвета [закрыто]

Последнее сообщение Anonymous « 29 июл 2025, 23:00
Добавлено в форуме Php

Anonymous » 29 июл 2025, 23:00 » в форуме Php

Вы должны знать I преобразовал калибриз. Я также установил все калибрированные TFF (S), что курсиновая расцвета не работает должным образом. не не распознавал. однако , другие такие, как «жирный», «курсив», работает, если я использую их отдельно :...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
29 июл 2025, 23:00
Как установить стиль шрифта жирным жирным шрифтам, курсивного и подчеркнутого в Android TextView?

Последнее сообщение Anonymous « 10 авг 2025, 12:46
Добавлено в форуме Android

Anonymous » 10 авг 2025, 12:46 » в форуме Android

Я хочу сделать содержимое TextView жирным шрифтом, курсивом и подчеркнутым. Я попробовал следующий код, и он работает, но не подчеркивает.

Как мне это сделать? Есть быстрые идеи?

Подробнее здесь:

0 Ответы

1 Просмотры

Последнее сообщение Anonymous
10 авг 2025, 12:46
Как изменить вес (стиль) шрифта текста во всем приложении, реагирующем на реакцию. (Проблема с доступностью жирного текс

Последнее сообщение Гость « 28 сен 2023, 11:20
Добавлено в форуме Android

Гость » 28 сен 2023, 11:20 » в форуме Android

У меня есть завершенный проект, и мы обнаружили проблему: если текстовому компоненту, используемому из реакции-native, не присвоено свойство стиля FontWeight, то настройка специальных возможностей Android (жирный текст) изменит вес шрифта текст. В...

0 Ответы

79 Просмотры

Последнее сообщение Гость
28 сен 2023, 11:20
Как печатать пользовательский ввод жирного шрифта с использованием класса шрифтов

Последнее сообщение Anonymous « 29 июл 2025, 00:05
Добавлено в форуме JAVA

Anonymous » 29 июл 2025, 00:05 » в форуме JAVA

Вот фрагмент моей программы, просящий пользователей ввести координаты своих кораблей, где я хочу, чтобы ввод пользователя был напечатан жирным шрифтом.
import java.util.Scanner;

public class WorkArea {
public static void main(String[] args) {...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
29 июл 2025, 00:05

Вернуться в «Python»