Grounding-dino: что делает load_image внутри и как применить ту же операцию к кадрам из видео

Grounding-dino: что делает load_image внутри и как применить ту же операцию к кадрам из видео ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Grounding-dino: что делает load_image внутри и как применить ту же операцию к кадрам из видео

Цитата

Сообщение Anonymous » 14 ноя 2024, 01:54

Проведя некоторое тестирование, я заметил, что выполнение вывода возвращает очень разные результаты для одного и того же изображения, но загруженного разными методами:
Метод 1: официальная функция load_image из библиотеки (она считывает изображение, используя путь, переданный в качестве аргумента)
Метод 2: использование cv2 для чтения изображения, затем преобразование в тензор и затем замена оси, чтобы в качестве первой оси была глубина.
Как я сказал, что оба метода дают вам тензор для передачи в модель, но они возвращают очень разные результаты (метод 2 обычно плохой), я проверил форму изображения, возвращаемого в обоих случаях, и они разные, поэтому внутри определенно происходят преобразования load_image, у меня вопрос: что происходит внутри load_image? поэтому я могу воспроизвести ее в других скриптах.
Моя конечная цель — запустить модель на видео, я имею в виду запуск модели на кадрах видео, поэтому я не могу использовать load_image, потому что они не изображения с диска, они получены из видео, поэтому мне нужно понять, что происходит внутри_загрузки изображения, чтобы я мог эмулировать это поведение на кадрах видео.

Подробнее здесь: https://stackoverflow.com/questions/791 ... he-same-op

1731538486

Anonymous

Проведя некоторое тестирование, я заметил, что выполнение вывода возвращает очень разные результаты для одного и того же изображения, но загруженного разными методами:
Метод 1: официальная функция load_image из библиотеки (она считывает изображение, используя путь, переданный в качестве аргумента)
Метод 2: использование cv2 для чтения изображения, затем преобразование в тензор и затем замена оси, чтобы в качестве первой оси была глубина.
Как я сказал, что оба метода дают вам тензор для передачи в модель, но они возвращают очень разные результаты (метод 2 обычно плохой), я проверил форму изображения, возвращаемого в обоих случаях, и они разные, поэтому внутри определенно происходят преобразования load_image, у меня вопрос: что происходит внутри load_image? поэтому я могу воспроизвести ее в других скриптах.
Моя конечная цель — запустить модель на видео, я имею в виду запуск модели на кадрах видео, поэтому я не могу использовать load_image, потому что они не изображения с диска, они получены из видео, поэтому мне нужно понять, что происходит внутри_загрузки изображения, чтобы я мог эмулировать это поведение на кадрах видео. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79186919/grounding-dino-what-is-load-image-doing-internally-and-how-to-apply-the-same-op[/url]

Ответить

1 сообщение • Страница 1 из 1