Сейчас я работаю над проектом перевода текста на основе изображения, но обнаружил, что трудно разместить переведенные тексты в нужном месте (на основе исходных текстов) из-за изменения длины.
Я использовал какую-нибудь модель MLLM, например Qwen-VL или Llava, но она не работает. Есть ли какое-либо решение или предложение по этому поводу? Спасибо большое!
Подробнее здесь: https://stackoverflow.com/questions/792 ... d-on-image
Мобильная версия