Я только что выполнил свой первый проект по машинному обучению на основе набора данных двоичной классификации для обнаружения мошенничества после многого изучения. (Вот ссылка): Блокнот Kaggle
И что удивительно, моя модель показала худшие результаты на тестовых данных после настройки параметров.
Некоторые подробности:
Данные представляют собой очень несбалансированный набор данных (0,6 % событий)
Набор данных о поездах состоит из 1 296 675 строк и тестовых 555 719 строк.
Я занизил выборку своего набора данных о поездах, чтобы справиться с дисбалансом. В результате получилось 82,566 строк, при этом 10% событий (7506 случаев мошенничества).
Затем я взял 20 % этих обучающих данных с недостаточной выборкой, чтобы создать набор проверочных данных и настроить гиперпараметры.
Я также пытался настроить обучающие данные, но модель оказалась переобученной.
Затем я увидел, что люди рекомендуют создать набор проверочных данных для настройки гиперпараметров, но с этой стратегией модель не работала лучше. Что я могу делать не так?
Это мой первый проект, так что будьте добры!
Кроме того, мне бы хотелось услышать общие предложения по поводу моей первой работы. Пожалуйста, проголосуйте за Kaggle, чтобы помочь мне, если можете
