Я работаю над проблемой бинарной классификации, используя randomforestclassifier из Scikit-Learn. Мой набор данных имеет ~ 10000 строк и ~ 20 численных функций. Я использовал train_test_split и cross_val_score, но моя модель очень хорошо работает в учебных данных и плохо в тестовом наборе.
Вот мой код: < /p>
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import classification_report
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
clf = RandomForestClassifier(n_estimators=100, random_state=42)
clf.fit(X_train, y_train)
# Cross-validation
cv_scores = cross_val_score(clf, X_train, y_train, cv=5)
print("Cross-validation scores:", cv_scores)
# Evaluation on test set
y_pred = clf.predict(X_test)
print(classification_report(y_test, y_pred))
< /code>
Наблюдаемый вывод: < /p>
Точность CV: ~ 95%< /p>
Точность теста: ~ 80%< /p>
Даже при перекрестной проверке, моя точность теста значительно падает, предполагая переосмысление. (max_depth) < /p>
Настройка max_features для 'sqrt' < /p>
Использование min_samples_leaf = 5 < /p>
Каковы общие причины, по которым случайно-карболс-класс может все еще переоценить, даже если оценки перекрестной проверки высоки? Есть ли лучший способ подтвердить обобщение модели за пределами cross_val_score?
Подробнее здесь: https://stackoverflow.com/questions/795 ... validation
Почему мой randomforestclassifier переполняет, несмотря на то, что использует перекрестную проверку? ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Как выполнить перекрестную компиляцию целей bpf для Linux на ноутбуке Mac M-серии?
Anonymous » » в форуме Linux - 0 Ответы
- 28 Просмотры
-
Последнее сообщение Anonymous
-
-
-
В ин-кварто можно ли сделать перекрестную ссылку на рисунок в другом документе?
Anonymous » » в форуме Python - 0 Ответы
- 25 Просмотры
-
Последнее сообщение Anonymous
-