Почему мой randomforestclassifier переполняет, несмотря на то, что использует перекрестную проверку? - Цифровое Кемерово

Почему мой randomforestclassifier переполняет, несмотря на то, что использует перекрестную проверку? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Почему мой randomforestclassifier переполняет, несмотря на то, что использует перекрестную проверку?

Цитата

Сообщение Anonymous » 21 апр 2025, 07:22

Я работаю над проблемой бинарной классификации, используя randomforestclassifier из Scikit-Learn. Мой набор данных имеет ~ 10000 строк и ~ 20 численных функций. Я использовал train_test_split и cross_val_score, но моя модель очень хорошо работает в учебных данных и плохо в тестовом наборе.
Вот мой код: < /p>
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import classification_report

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

clf = RandomForestClassifier(n_estimators=100, random_state=42)
clf.fit(X_train, y_train)

# Cross-validation
cv_scores = cross_val_score(clf, X_train, y_train, cv=5)
print("Cross-validation scores:", cv_scores)

# Evaluation on test set
y_pred = clf.predict(X_test)
print(classification_report(y_test, y_pred))
< /code>
Наблюдаемый вывод: < /p>
Точность CV: ~ 95%< /p>
Точность теста: ~ 80%< /p>
Даже при перекрестной проверке, моя точность теста значительно падает, предполагая переосмысление. (max_depth) < /p>
Настройка max_features для 'sqrt' < /p>
Использование min_samples_leaf = 5 < /p>
Каковы общие причины, по которым случайно-карболс-класс может все еще переоценить, даже если оценки перекрестной проверки высоки? Есть ли лучший способ подтвердить обобщение модели за пределами cross_val_score?

Подробнее здесь: https://stackoverflow.com/questions/795 ... validation

Реклама

1745209330

Anonymous

 Я работаю над проблемой бинарной классификации, используя randomforestclassifier из Scikit-Learn. Мой набор данных имеет ~ 10000 строк и ~ 20 численных функций. Я использовал train_test_split и cross_val_score, но моя модель очень хорошо работает в учебных данных и плохо в тестовом наборе.
Вот мой код: < /p>
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import classification_report

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

clf = RandomForestClassifier(n_estimators=100, random_state=42)
clf.fit(X_train, y_train)

# Cross-validation
cv_scores = cross_val_score(clf, X_train, y_train, cv=5)
print("Cross-validation scores:", cv_scores)

# Evaluation on test set
y_pred = clf.predict(X_test)
print(classification_report(y_test, y_pred))
< /code>
Наблюдаемый вывод: < /p>
Точность CV: ~ 95%< /p>
Точность теста: ~ 80%< /p>
Даже при перекрестной проверке, моя точность теста значительно падает, предполагая переосмысление. (max_depth) < /p>
Настройка max_features для 'sqrt' < /p>
Использование min_samples_leaf = 5 < /p>
Каковы общие причины, по которым случайно-карболс-класс может все еще переоценить, даже если оценки перекрестной проверки высоки? Есть ли лучший способ подтвердить обобщение модели за пределами cross_val_score?  

Подробнее здесь: [url]https://stackoverflow.com/questions/79583697/why-does-my-randomforestclassifier-overfit-despite-using-cross-validation[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как выполнить перекрестную проверку и поиск по сетке, если у меня есть настроенная модель ансамбля в конвейере Python

Последнее сообщение Anonymous « 07 ноя 2024, 02:00
Добавлено в форуме Python

Anonymous » 07 ноя 2024, 02:00 » в форуме Python

Я создаю индивидуальную модель ансамбля и хотел бы выполнить перекрестную проверку и поиск по сетке в Python с помощью конвейера. Как мне это сделать?
У меня есть набор данных, содержащий веб-контент. Я хочу

Разделить контент одной веб-страницы...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
07 ноя 2024, 02:00
Детский элемент переполняет контейнер, несмотря на высоту: 100%

Последнее сообщение Anonymous « 19 фев 2025, 13:05
Добавлено в форуме Html

Anonymous » 19 фев 2025, 13:05 » в форуме Html

У меня есть этот код:

#container {
display: grid;
height: 150px;
background-color: green;
grid-template-columns: 1fr 1fr;
}

#child {
margin: 20px;
height: calc(100% - 40px);
/* This gets ignored? */
background-color: red;

display: flex;...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
19 фев 2025, 13:05
Детский элемент переполняет контейнер, несмотря на высоту: 100%

Последнее сообщение Anonymous « 19 фев 2025, 13:05
Добавлено в форуме CSS

Anonymous » 19 фев 2025, 13:05 » в форуме CSS

У меня есть этот код:

#container {
display: grid;
height: 150px;
background-color: green;
grid-template-columns: 1fr 1fr;
}

#child {
margin: 20px;
height: calc(100% - 40px);
/* This gets ignored? */
background-color: red;

display: flex;...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
19 фев 2025, 13:05
Как выполнить перекрестную компиляцию целей bpf для Linux на ноутбуке Mac M-серии?

Последнее сообщение Anonymous « 27 окт 2023, 12:42
Добавлено в форуме Linux

Anonymous » 27 окт 2023, 12:42 » в форуме Linux

Я пытаюсь обнаружить и запустить простое приложение eBPF на локальной виртуальной машине Linux на своем ноутбуке Mac M1. Для большей эффективности я решил запустить Ubuntu на базе arm на UTM (VMM с открытым исходным кодом).

Однако у меня возникли...

0 Ответы

28 Просмотры

Последнее сообщение Anonymous
27 окт 2023, 12:42
В ин-кварто можно ли сделать перекрестную ссылку на рисунок в другом документе?

Последнее сообщение Anonymous « 06 дек 2023, 14:53
Добавлено в форуме Python

Anonymous » 06 дек 2023, 14:53 » в форуме Python

Я пишу статью в одном документе .qmd в кварто и хочу сослаться на рисунок, который находится в приложении к другому документу .qmd.
>
Воспроизводимый пример:
article.qmd
Подробнее см. на рисунке @fig-a в приложении. приложение.qmd !...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
06 дек 2023, 14:53

Вернуться в «Python»

Programmiererforum