Какова правильная логика классификации и категоризации изображений с помощью Python?Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Какова правильная логика классификации и категоризации изображений с помощью Python?

Сообщение Anonymous »

Я прочитал множество статей здесь и в других местах, консультировался с ChatGPT и Gemini и даже спрашивал реальных людей, но мне также хотелось бы узнать мнение этого сообщества:
Я пытаюсь создать классификатор фотографий.
Идея заключалась в том, что я могу использовать модель или обучить свою собственную и дать ей несколько тысяч изображений всех типов предметов, и она будет их хранить в соответствующих папках по категориям.
Изображения в основном посвящены различным событиям; на открытом воздухе, в помещении, есть сцена, публика, концерт, человек, выступающий с речью, церемония награждения, красная дорожка, мероприятия перед мероприятием, общение после мероприятия и многое другое. Я собираю изображения от 10 до 20 фотографов и вручную сортирую их по категориям, таким как «снимок слева от дома», «крупный план в центре», «вручение награды», «реакция публики», «до мероприятия» и т. д. не все события имеют одинаковые категории, и не все категории легко отличить друг от друга даже для человека.
Я попробовал следующее:
  • кластеризация изображений, затем нулевая съемка с помощью CLIP, а затем сортировка
  • тренировка моего собственного «верхнего слоя» CLIP с 10000 изображений, которые я уже классифицируется вручную
  • используйте другие модели, такие как alexnet, Densnet, EffectiveNet,
    inception_v3, mobilenet, vgg
  • пробовал точно настроить каждую из этих моделей
  • различные методы кластеризации
  • затем я даже попробовал добавить к ней автоматические субтитры с помощью Florence, а затем с помощью
    MiniLM -L6-v2 разбивает подписи на отдельные метки, затем сортирует их
и многое другое...
На данный момент моя лучшая точность была около 90%, с 2 типами кластеризации и обучением CLIP около месяца на моем компьютере с собственными данными, но я не верю, что сегодняшние технологии не могут добиться большего.
Итак, мой вопрос:
Какая логическая линия лучше всего подходит для такой задачи? Каков наилучший подход к классификации изображений такого типа? это не так просто, как отличить мотоцикл от банана. Для этого необходимо «увидеть» разницу между «дальним планом справа от дома» и «дальним планом дома слева», разницу между «развлечениями после мероприятия» и «концертом перед мероприятием», «ведущим А» и «ведущим Б» и т. д. .
Есть идеи?
Спасибо!

Подробнее здесь: https://stackoverflow.com/questions/791 ... ges-with-p
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение
  • Какова правильная логика классификации изображений?
    Anonymous » » в форуме Python
    0 Ответы
    9 Просмотры
    Последнее сообщение Anonymous
  • Наиболее эффективный способ категоризации, когда набор тегов не определен
    Anonymous » » в форуме Python
    0 Ответы
    17 Просмотры
    Последнее сообщение Anonymous
  • Классификаторы категоризации текста
    Anonymous » » в форуме JAVA
    0 Ответы
    8 Просмотры
    Последнее сообщение Anonymous
  • Java - даже позиционируйте буквы в строке для категоризации [дубликат]
    Anonymous » » в форуме JAVA
    0 Ответы
    14 Просмотры
    Последнее сообщение Anonymous
  • Получаю неправильный ответ, хотя логика моего кода выглядит такой же, как логика решения [закрыто]
    Anonymous » » в форуме C++
    0 Ответы
    60 Просмотры
    Последнее сообщение Anonymous

Вернуться в «Python»