- Выбор 75 % моего набора данных для обучения с помощью train_test_split
- SequentialFeatureSelector для получения лучших функций
- RandomForest для классификации
- AdaBoost для улучшения классификации
У меня есть несколько вариантов используйте 100% моих данных в качестве обучения:
- Создайте новую модель со 100% данных для обучения (просто переустановите модель со 100% данных?)
- Создайте перекрестное предсказание с помощью n моделей для каждой складки и объедините их с VotingClassifier.
- Используйте напрямую cross_val_predict с первой моделью, но как именно?
Подробнее здесь: https://stackoverflow.com/questions/790 ... th-sklearn
Мобильная версия