Получение точных координат значков с помощью API Anthropic Vision

Получение точных координат значков с помощью API Anthropic Vision ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Получение точных координат значков с помощью API Anthropic Vision

Цитата

Сообщение Anonymous » 10 янв 2025, 14:00

Я работаю над извлечением координат определенных значков, папок или элементов из изображения на рабочем столе с помощью API Anthropic Vision, но столкнулся с проблемой. Вот что я делаю:
У меня есть изображение рабочего стола (исходный размер: 1920x1080) с несколькими значками и папками.
Я спрашиваю модель Vision (через модель Sonnet 3.5), чтобы найти координаты определенного значка, например «Chrome».
Основываясь на документации Anthropic Vision, я изменил размер изображения на 1366x768, прежде чем отправлять его в API в соответствии с инструкциями.
Несмотря на соблюдение рекомендаций, координаты, возвращаемые API, не соответствуют фактическому местоположению значка в исходном изображении.
Интересно, что модель использования компьютера корректно работает в своей среде, но в данном случае я просто хочу отправить изображение в модель Vision и получить точные координаты конкретного элемента.
Как решить проблема?

Подробнее здесь: https://stackoverflow.com/questions/793 ... vision-api

1736506801

Anonymous

Я работаю над извлечением координат определенных значков, папок или элементов из изображения на рабочем столе с помощью API Anthropic Vision, но столкнулся с проблемой. Вот что я делаю:
У меня есть изображение рабочего стола (исходный размер: 1920x1080) с несколькими значками и папками.
Я спрашиваю модель Vision (через модель Sonnet 3.5), чтобы найти координаты определенного значка, например «Chrome».
Основываясь на документации Anthropic Vision, я изменил размер изображения на 1366x768, прежде чем отправлять его в API в соответствии с инструкциями.
Несмотря на соблюдение рекомендаций, координаты, возвращаемые API, не соответствуют фактическому местоположению значка в исходном изображении.
Интересно, что модель использования компьютера корректно работает в своей среде, но в данном случае я просто хочу отправить изображение в модель Vision и получить точные координаты конкретного элемента.
Как решить проблема? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79345033/getting-accurate-icon-coordinates-using-anthropic-vision-api[/url]

Ответить

1 сообщение • Страница 1 из 1