Мне нужно сгенерировать PDF-файлы, и мой текущий конвейер ожидает XSL-FO (отображаемый механизмом FO), но мой входной контент - это HTML.
Я пытаюсь понять правильный способ преобразования HTML → XSL-FO, в идеале сохраняющий общее форматирование, например:
заголовки (h1-h6)
абзацы, жирный/курсив
списки (ul/ol)
таблицы
основной CSS (поля/отступы, размеры шрифта, выравнивание)
Что я ищу
Существует ли надежный подход к преобразованию (библиотека/инструмент) для HTML → XSL-FO?
Если прямое преобразование не рекомендуется, каков оптимальный конвейер для перехода от HTML к PDF, когда у меня есть существующая инфраструктура на основе FO?
Как люди обрабатывают CSS, особенно для таблиц и интервалов, во время преобразования?
Контекст/ограничения
Входной HTML может быть создан пользователем, поэтому он может быть беспорядочным.
При необходимости я могу ограничить подмножество HTML/CSS.
Я могу запустить преобразование на стороне сервера (Возможны все варианты Java/Python/Node).
Выходной файл представляет собой XSL-FO XML, который затем преобразуется в PDF с помощью механизма FO.
Что я пробовал
Поиск «HTML в XSL-FO» в основном возвращает устаревшие или частичные ссылки. конвертеры.
Я не уверен, следует ли мне:
конвертировать HTML → правильно сформированный XHTML → преобразовать в FO (XSLT?)
использовать специальный конвертер
избегать FO и использовать средство рендеринга HTML в PDF вместо этого
Мне нужно сгенерировать PDF-файлы, и мой текущий конвейер ожидает [b]XSL-FO[/b] (отображаемый механизмом FO), но мой входной контент - это [b]HTML[/b]. Я пытаюсь понять [b]правильный способ преобразования HTML → XSL-FO[/b], в идеале сохраняющий общее форматирование, например: [list] [*]заголовки (h1-h6)
[*]абзацы, жирный/курсив
[*]списки (ul/ol)
[*]таблицы
[*]основной CSS (поля/отступы, размеры шрифта, выравнивание)
[/list] Что я ищу [list] [*]Существует ли [b]надежный подход к преобразованию[/b] (библиотека/инструмент) для HTML → XSL-FO?
[*]Если прямое преобразование не рекомендуется, каков [b]оптимальный конвейер[/b] для перехода от HTML к PDF, когда у меня есть существующая инфраструктура на основе FO?
[*]Как люди обрабатывают [b]CSS[/b], особенно для таблиц и интервалов, во время преобразования?
[/list] Контекст/ограничения [list] [*]Входной HTML может быть [b]создан пользователем[/b], поэтому он может быть беспорядочным.
[*]При необходимости я могу ограничить подмножество HTML/CSS.
[*]Я могу запустить преобразование [b]на стороне сервера[/b] (Возможны все варианты Java/Python/Node).
[*]Выходной файл представляет собой XSL-FO XML, который затем преобразуется в PDF с помощью механизма FO.
[/list] Что я пробовал [list] [*]Поиск «HTML в XSL-FO» в основном возвращает устаревшие или частичные ссылки. конвертеры.
[*]Я не уверен, следует ли мне:
[*]конвертировать HTML → правильно сформированный XHTML → преобразовать в FO (XSLT?)
[*]использовать специальный конвертер
[*]избегать FO и использовать средство рендеринга HTML в PDF вместо этого