у меня есть два файла PDF CV:
First cv (источник) - содержит text/content Я хочу повторно использовать .
Second CV (Target) - имеет Design < /strong> (шрифты, цвета, макет), который я хочу сохранить. < /p>
Оба PDFS есть текстовый и разделять одну и ту же структуру высокого уровня: они имеют одинаковые разделы в том же порядке (например, образование, опыт, навыки ). Тем не менее, тип контента может отличаться, например, таблица в исходном резюме может соответствовать абзацу текста в целевом cv.
Моя цель это заполнить макет цели CV текстом из исходного CV. Я хочу сохранить точный стиль, шрифт, цвет и макет целевого резюме - по сути, только заменяя текстовый контент, оставляя все элементы дизайна нетронутыми. < /P>
Что я Пробовал до сих пор
1- Преобразовать каждую страницу PDF в изображение и используйте GPT/OCR для извлечения и восстановления HTML /CSS: < /strong>
Этот подход был не очень точным. Реконструированные HTML/CSS часто не соответствовали исходной макету, особенно для сложных разделов или таблиц.
2- Использование библиотек, таких как PYPDF или PyMupDF для замены текста:
Хотя эти библиотеки могут манипулировать PDF на уровне текста, самой большой проблемой является обращение различий в размерах контента. Если исходный текст длиннее (или короче), чем целевое текстовое пространство, он разбивает предполагаемый макет. Более того, в формах PDF часто нет простого «потока» текста, что затрудняет простую замену текста один к одному без сменов. < /strong> < /h3>
pdfs не предназначены в основном для обработанного текста: < /p>
[*] Если новый контент не подходит пространство старого Текст, разрывы макета.
Раздели могут различаться структурно (например, таблица в одном против параграфа в другом), поэтому простая замена текста часто не может адаптировать макет.
< /ul>
Вопрос < /strong> < /h3>
Есть ли надежный, программный способ объединения контента Из источника CV в целевое CV при сохранении макета, стиля и форматирования цели?
Различия сложных макетов (таблицы по сравнению с параграфами). < /li>
Потенциальные несоответствия в длине текста. < /li>
Сохранение консервирования Шрифты, цвета и стиль из Target PDF. , или многоэтапное преобразование в более редактируемый формат (например, .docx или .odt ), затем реэкспортируется в PDF-чтобы достичь этого Цель.
Спасибо!
Подробнее здесь: https://stackoverflow.com/questions/794 ... and-layout
Слияйте текст из одного PDF в другой, сохраняя стиль и макет? ⇐ CSS
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Снимите целые ряды, найденные в двух 2D массивах, затем слияйте [дублировать]
Anonymous » » в форуме Php - 0 Ответы
- 11 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Заменить все вхождения текста в PDF-файле программно, сохраняя исходный стиль.
Anonymous » » в форуме JAVA - 0 Ответы
- 10 Просмотры
-
Последнее сообщение Anonymous
-