Как я могу точно извлечь корейский текст из PDF-файлов на основе изображений для использования с LLMS? [закрыто]

Как я могу точно извлечь корейский текст из PDF-файлов на основе изображений для использования с LLMS? [закрыто] ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как я могу точно извлечь корейский текст из PDF-файлов на основе изображений для использования с LLMS? [закрыто]

Цитата

Сообщение Anonymous » 29 май 2025, 10:31

Я студент университета в настоящее время веду проект AI (LLM) в моей школе. Моя цель - извлечь этот текст и сохранить его в векторной базе данных для использования с большой языковой моделью (LLM). Тем не менее, я сталкиваюсь с серьезными проблемами с извлечением OCR и текста. Это стало основным препятствием для интеграции обучения OCR и LLM в наш рабочий процесс обслуживания. К сожалению, результаты были либо нечитаемыми, либо полностью отсутствующей корейской поддержки персонажа.

Подробнее здесь: https://stackoverflow.com/questions/796 ... -with-llms

1748503914

Anonymous

 Я студент университета в настоящее время веду проект AI (LLM) в моей школе. Моя цель - извлечь этот текст и сохранить его в векторной базе данных для использования с большой языковой моделью (LLM). Тем не менее, я сталкиваюсь с серьезными проблемами с извлечением OCR и текста. Это стало основным препятствием для интеграции обучения OCR и LLM в наш рабочий процесс обслуживания. К сожалению, результаты были либо нечитаемыми, либо полностью отсутствующей корейской поддержки персонажа. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79643476/how-can-i-accurately-extract-korean-text-from-image-based-pdfs-for-use-with-llms[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как точно извлечь многостраничные ответы (включая текст, формулы) с несовместимой нумерацией из PDF-файлов и получить ск

Последнее сообщение Anonymous « 09 апр 2025, 01:44
Добавлено в форуме Python

Anonymous » 09 апр 2025, 01:44 » в форуме Python

Я работаю над задачей, включающей большое количество файлов PDF. Эти PDF содержат ответы на вопросы из различных предметов, таких как математика, физика, химия, статистика и т. Д. Мне нужно извлечь каждый полный ответ в виде изображения или набора...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
09 апр 2025, 01:44
Как точно извлечь многостраничные ответы (включая текст, формулы) с несовместимой нумерацией из PDF-файлов и получить ск

Последнее сообщение Anonymous « 09 апр 2025, 04:24
Добавлено в форуме Python

Anonymous » 09 апр 2025, 04:24 » в форуме Python

Я работаю над задачей, включающей большое количество файлов PDF. Эти PDF содержат ответы на вопросы из различных предметов, таких как математика, физика, химия, статистика и т. Д. Мне нужно извлечь каждый полный ответ в виде изображения или набора...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
09 апр 2025, 04:24
Голосование iOS не читает корейский, когда это основной язык

Последнее сообщение Anonymous « 25 апр 2025, 10:04
Добавлено в форуме IOS

Anonymous » 25 апр 2025, 10:04 » в форуме IOS

Один из наших пользователей пытается использовать голосование iOS с нашим приложением Swiftui, и он не может правильно использовать его на корейском языке

Проблема за голосование не читает корейские струны, если основной язык выбран в качестве...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
25 апр 2025, 10:04
Голосование iOS не читает корейский, когда это основной язык

Последнее сообщение Anonymous « 25 апр 2025, 16:01
Добавлено в форуме IOS

Anonymous » 25 апр 2025, 16:01 » в форуме IOS

Один из наших пользователей пытается использовать голосование iOS с нашим приложением Swiftui, и он не может правильно использовать его на корейском языке

Проблема за голосование не читает корейские струны, если основной язык выбран в качестве...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
25 апр 2025, 16:01
Как точно извлечь заголовок, заголовки и подзаголовки из исследовательских статей в формате PDF?

Последнее сообщение Anonymous « 03 окт 2024, 13:37
Добавлено в форуме Python

Anonymous » 03 окт 2024, 13:37 » в форуме Python

Я пытаюсь извлечь заголовок, заголовки и подзаголовки из научных статей в формате PDF. Я пробовал различные подходы, но не смог получить точных результатов. Вот шаги, которые я предпринял:
1. Пробовал использовать PyMuPDF (fitz).
Я использовал...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
03 окт 2024, 13:37

Вернуться в «Python»