Получение точных координат значков с помощью API Anthropic VisionPython

Программы на Python
Ответить
Anonymous
 Получение точных координат значков с помощью API Anthropic Vision

Сообщение Anonymous »

Я работаю над извлечением координат определенных значков, папок или элементов из изображения на рабочем столе с помощью API Anthropic Vision, но столкнулся с проблемой. Вот что я делаю:
У меня есть изображение рабочего стола (исходный размер: 1920x1080) с несколькими значками и папками.
Я спрашиваю модель Vision (через модель Sonnet 3.5), чтобы найти координаты определенного значка, например «Chrome».
Основываясь на документации Anthropic Vision, я изменил размер изображения на 1366x768, прежде чем отправлять его в API в соответствии с инструкциями.
Несмотря на соблюдение рекомендаций, координаты, возвращаемые API, не соответствуют фактическому местоположению значка в исходном изображении.
Интересно, что модель использования компьютера корректно работает в своей среде, но в данном случае я просто хочу отправить изображение в модель Vision и получить точные координаты конкретного элемента.
Как решить проблема?

Подробнее здесь: https://stackoverflow.com/questions/793 ... vision-api
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»