Я пытаюсь создать классификатор фотографий.
Идея заключалась в том, что я могу использовать модель или обучить свою собственную и дать ей несколько тысяч изображений всех типов предметов, и она будет их хранить в соответствующих папках по категориям.
Изображения в основном посвящены различным событиям; на открытом воздухе, в помещении, есть сцена, публика, концерт, человек, выступающий с речью, церемония награждения, красная дорожка, мероприятия перед мероприятием, общение после мероприятия и многое другое. Я собираю изображения от 10 до 20 фотографов и вручную сортирую их по категориям, таким как «снимок слева от дома», «крупный план в центре», «вручение награды», «реакция публики», «до мероприятия» и т. д. не все события имеют одинаковые категории, и не все категории легко отличить друг от друга даже для человека.
Я попробовал следующее:
- кластеризация изображений, затем нулевая съемка с помощью CLIP, а затем сортировка
- тренировка моего собственного «верхнего слоя» CLIP с 10000 изображений, которые я уже классифицируется вручную
- используйте другие модели, такие как alexnet, Densnet, EffectiveNet,
inception_v3, mobilenet, vgg - пробовал точно настроить каждую из этих моделей
- различные методы кластеризации
- затем я даже попробовал добавить к ней автоматические субтитры с помощью Florence, а затем с помощью
MiniLM -L6-v2 разбивает подписи на отдельные метки, затем сортирует их
На данный момент моя лучшая точность была около 90%, с 2 типами кластеризации и обучением CLIP около месяца на моем компьютере с собственными данными, но я не верю, что сегодняшние технологии не могут добиться большего.
Итак, мой вопрос:
Какая логическая линия лучше всего подходит для такой задачи? Каков наилучший подход к классификации изображений такого типа? это не так просто, как отличить мотоцикл от банана. Для этого необходимо «увидеть» разницу между «дальним планом справа от дома» и «дальним планом дома слева», разницу между «развлечениями после мероприятия» и «концертом перед мероприятием», «ведущим А» и «ведущим Б» и т. д. .
Есть идеи?
Спасибо!
Подробнее здесь: https://stackoverflow.com/questions/791 ... ges-with-p