Как внедрить идентификаторы и позиции глифов в форме HarfBuzz в поток контента PDFBox 3.0? - Цифровое Кемерово

Как внедрить идентификаторы и позиции глифов в форме HarfBuzz в поток контента PDFBox 3.0? ⇐ JAVA

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Как внедрить идентификаторы и позиции глифов в форме HarfBuzz в поток контента PDFBox 3.0?

Цитата

Сообщение Anonymous » 20 янв 2026, 14:34

Я работаю над рендерингом тайского текста с помощью PDFBox 3. Тайский язык — это сложный скрипт, который в значительной степени зависит от таблиц GSUB и GPOS для правильного формирования текста (например, расположения гласных).
Как отмечено в PDFBOX-3147, PDFBox пока не полностью поддерживает сложное формирование скрипта. Чтобы решить эту проблему, я использую внешний механизм формирования (HarfBuzz), который предоставляет мне правильные идентификаторы глифов и точные позиции X/Y.
Проблема: я не могу найти поддерживаемый API в PDFBox 3 для прямого внедрения этих предварительно рассчитанных идентификаторов и позиций глифов. Метод PDPageContentStream.showText(String text) заставляет входные данные быть строкой Юникода. Внутренне PDFBox перекодирует эту строку и применяет собственное ограниченное формирование, которое эффективно переопределяет работу, проделанную HarfBuzz.
Что я учел:

Необработанные команды: Я знаю о AppendRawCommands(" Tj"). Однако это похоже на взлом. Он обходит поднабор шрифтов и генерацию ToUnicode, делая текст недоступным для поиска, и я опасаюсь, что он может быть удален в будущих версиях.
Векторные контуры: Отображение глифов в виде фигур/путей. Визуально это выглядит правильно, но ухудшает возможность выбора текста и возможности поиска.

Мой вопрос: Есть ли какой-либо поддерживаемый метод или API в PDFBox 3, который позволяет передавать идентификаторы глифов или предварительно закодированные массивы байтов непосредственно в конвейер вывода текста, сохраняя при этом правильное управление ресурсами шрифтов?

Подробнее здесь: https://stackoverflow.com/questions/798 ... content-st

1768908849

Anonymous

Я работаю над рендерингом тайского текста с помощью PDFBox 3. Тайский язык — это сложный скрипт, который в значительной степени зависит от таблиц GSUB и GPOS для правильного формирования текста (например, расположения гласных).
Как отмечено в PDFBOX-3147, PDFBox пока не полностью поддерживает сложное формирование скрипта. Чтобы решить эту проблему, я использую внешний механизм формирования ([b]HarfBuzz[/b]), который предоставляет мне правильные идентификаторы глифов и точные позиции X/Y.
[b]Проблема:[/b] я не могу найти поддерживаемый API в PDFBox 3 для прямого внедрения этих предварительно рассчитанных идентификаторов и позиций глифов. Метод PDPageContentStream.showText(String text) заставляет входные данные быть строкой Юникода. Внутренне PDFBox перекодирует эту строку и применяет собственное ограниченное формирование, которое эффективно переопределяет работу, проделанную HarfBuzz.
[b]Что я учел:[/b]
[list]
[*][b]Необработанные команды:[/b] Я знаю о AppendRawCommands(" Tj"). Однако это похоже на взлом. Он обходит поднабор шрифтов и генерацию ToUnicode, делая текст недоступным для поиска, и я опасаюсь, что он может быть удален в будущих версиях.

[*][b]Векторные контуры:[/b] Отображение глифов в виде фигур/путей. Визуально это выглядит правильно, но ухудшает возможность выбора текста и возможности поиска.

[/list]
[b]Мой вопрос:[/b] Есть ли какой-либо поддерживаемый метод или API в PDFBox 3, который позволяет передавать [b]идентификаторы глифов[/b] или [b]предварительно закодированные массивы байтов[/b] непосредственно в конвейер вывода текста, сохраняя при этом правильное управление ресурсами шрифтов? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79871926/how-to-inject-harfbuzz-shaped-glyph-ids-and-positions-into-pdfbox-3-0-content-st[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «JAVA»