Слияйте текст из одного PDF в другой, сохраняя стиль и макет? - Цифровое Кемерово

Слияйте текст из одного PDF в другой, сохраняя стиль и макет? ⇐ CSS

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Слияйте текст из одного PDF в другой, сохраняя стиль и макет?

Цитата

Сообщение Anonymous » 24 фев 2025, 16:47

у меня есть два файла PDF CV:
First cv (источник) - содержит text/content Я хочу повторно использовать .

Second CV (Target) - имеет Design < /strong> (шрифты, цвета, макет), который я хочу сохранить. < /p>
Оба PDFS есть текстовый и разделять одну и ту же структуру высокого уровня: они имеют одинаковые разделы в том же порядке (например, образование, опыт, навыки ). Тем не менее, тип контента может отличаться, например, таблица в исходном резюме может соответствовать абзацу текста в целевом cv.
Моя цель это заполнить макет цели CV текстом из исходного CV. Я хочу сохранить точный стиль, шрифт, цвет и макет целевого резюме - по сути, только заменяя текстовый контент, оставляя все элементы дизайна нетронутыми. < /P>
Что я Пробовал до сих пор
1- Преобразовать каждую страницу PDF в изображение и используйте GPT/OCR для извлечения и восстановления HTML /CSS: < /strong>

Этот подход был не очень точным. Реконструированные HTML/CSS часто не соответствовали исходной макету, особенно для сложных разделов или таблиц.
2- Использование библиотек, таких как PYPDF или PyMupDF для замены текста:

Хотя эти библиотеки могут манипулировать PDF на уровне текста, самой большой проблемой является обращение различий в размерах контента. Если исходный текст длиннее (или короче), чем целевое текстовое пространство, он разбивает предполагаемый макет. Более того, в формах PDF часто нет простого «потока» текста, что затрудняет простую замену текста один к одному без сменов. < /strong> < /h3>
pdfs не предназначены в основном для обработанного текста: < /p>

[*] Если новый контент не подходит пространство старого Текст, разрывы макета.
Раздели могут различаться структурно (например, таблица в одном против параграфа в другом), поэтому простая замена текста часто не может адаптировать макет.
< /ul>
Вопрос < /strong> < /h3>
Есть ли надежный, программный способ объединения контента Из источника CV в целевое CV при сохранении макета, стиля и форматирования цели?
Различия сложных макетов (таблицы по сравнению с параграфами). < /li>
Потенциальные несоответствия в длине текста. < /li>
Сохранение консервирования Шрифты, цвета и стиль из Target PDF. , или многоэтапное преобразование в более редактируемый формат (например, .docx или .odt ), затем реэкспортируется в PDF-чтобы достичь этого Цель.
Спасибо!

Подробнее здесь: https://stackoverflow.com/questions/794 ... and-layout

1740404825

Anonymous

 [b] у меня есть два файла PDF CV: [/b] 
First cv (источник) - содержит [b] text/content [/b] Я хочу повторно использовать .

Second CV (Target) - имеет [b] Design < /strong> (шрифты, цвета, макет), который я хочу сохранить. < /p>
Оба PDFS есть  текстовый [/b] и разделять одну и ту же структуру высокого уровня: они имеют одинаковые разделы в том же порядке (например, [b] образование, опыт, навыки [/b]). Тем не менее, тип контента может отличаться, например, таблица в исходном резюме может соответствовать абзацу текста в целевом cv. 
[b] Моя цель [/b] это заполнить макет цели CV текстом из исходного CV. Я хочу сохранить точный стиль, шрифт, цвет и макет целевого резюме - по сути, только заменяя текстовый контент, оставляя все элементы дизайна нетронутыми. < /P>
 [b] Что я Пробовал до сих пор [/b] 
[b] 1- Преобразовать каждую страницу PDF в изображение и используйте GPT/OCR для извлечения и восстановления HTML /CSS: < /strong>

Этот подход был не очень точным. Реконструированные HTML/CSS часто не соответствовали исходной макету, особенно для сложных разделов или таблиц. 
 2- Использование библиотек, таких как PYPDF или PyMupDF для замены текста: [/b]

Хотя эти библиотеки могут манипулировать PDF на уровне текста, самой большой проблемой является обращение различий в размерах контента. Если исходный текст длиннее (или короче), чем целевое текстовое пространство, он разбивает предполагаемый макет. Более того, в формах PDF часто нет простого «потока» текста, что затрудняет простую замену текста один к одному без сменов. < /strong> < /h3>
pdfs не предназначены в основном для обработанного текста: < /p>

[*] Если новый контент не подходит пространство старого Текст, разрывы макета.
 Раздели могут различаться структурно (например, таблица в одном против параграфа в другом), поэтому простая замена текста часто не может адаптировать макет. 
< /ul>
  Вопрос < /strong> < /h3>
 Есть ли надежный, программный способ объединения контента Из источника CV в целевое CV при сохранении макета, стиля и форматирования цели?
 Различия сложных макетов (таблицы по сравнению с параграфами). < /li>
 Потенциальные несоответствия в длине текста. < /li>
 Сохранение консервирования Шрифты, цвета и стиль из Target PDF. , или многоэтапное преобразование в более редактируемый формат (например, .docx  или .odt ), затем реэкспортируется в PDF-чтобы достичь этого Цель. 
Спасибо!  

Подробнее здесь: [url]https://stackoverflow.com/questions/79463736/merge-text-from-one-pdf-into-another-while-preserving-style-and-layout[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «CSS»