Переоснащение линейных данных случайного леса

Переоснащение линейных данных случайного леса ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Переоснащение линейных данных случайного леса

Цитата

Сообщение Anonymous » 02 июл 2024, 15:43

RF всегда переоснащается для моих линейных данных. Я попробовал оптимизацию гиперпараметров. Это общая проблема?

Код: Выделить всё

   intercept=2
subscript_numbers = ['\u2081', '\u2082', '\u2083', '\u2084', '\u2085', '\u2086']
column_names = [f'x{subscript_numbers[i]}' for i in range(6)]
coefficients = np.array([1.5, -0.5, -1.5, 1.0, 0.0, 0.0])

n_simulations = 1000
Daten = 1000
cov_matrix = np.array([
[1.0, 0.3, 0.0, 0.0, 0.0, 0.0],  # x1
[0.3, 1.0, 0.0, 0.0, 0.0, 0.0],  # x2
[0.0, 0.0, 1.0, 0.0, 0.0, 0.0],  # x3
[0.0, 0.0, 0.0, 1.0, 0.3, 0.0],  # x4
[0.0, 0.0, 0.0, 0.3, 1.0, 0.0],  # x5
[0.0, 0.0, 0.0, 0.0, 0.0, 1.0]   # x6
])

train_r2_scores = []
test_r2_scores = []

for seed in range(n_simulations):
np.random.seed(seed)
X = np.random.multivariate_normal(np.zeros(6), cov_matrix, size=Daten)
y = intercept + np.dot(X, coefficients) + np.random.randn(Daten)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=seed)

rf = RandomForestRegressor(n_estimators=100, random_state=seed, max_features=2)
rf.fit(X_train, y_train)

y_train_pred = rf.predict(X_train)
y_test_pred = rf.predict(X_test)

train_r2 = r2_score(y_train, y_train_pred)
test_r2 = r2_score(y_test, y_test_pred)

train_r2_scores.append(train_r2)
test_r2_scores.append(test_r2)

average_train_r2 = np.mean(train_r2_scores)
average_test_r2 = np.mean(test_r2_scores)

results_df = pd.DataFrame({
"Simulation": np.arange(n_simulations),
"Train R2": train_r2_scores,
"Test R2": test_r2_scores
})

print(results_df)

print(f'Average Train R2: {average_train_r2}')
print(f'Average Test R2: {average_test_r2}')`

RF всегда переоснащается для моих линейных данных. Я попробовал оптимизацию гиперпараметров.
из sklearn.model_selection import train_test_split, RandomizedSearchCV
Daten=1000

Код: Выделить всё

   cov_matrix = np.array([
[1.0, 0.0, 0.0, 0.0, 0.0, 0.0],  # x1
[0.0, 1.0, 0.0, 0.0, 0.0, 0.0],  # x2
[0.0, 0.0, 1.0, 0.0, 0.0, 0.0],  # x3
[0.0, 0.0, 0.0, 1.0, 0.0, 0.0],  # x4
[0.0, 0.0, 0.0, 0.0, 1.0, 0.0],  # x5
[0.0, 0.0, 0.0, 0.0, 0.0, 1.0]   # x6
])

param_distributions = {
'max_depth': [5, 6, 7, 8, 9, 10],
'min_samples_split': [2, 3, 4, 5, 6],
'min_samples_leaf': [2, 3, 4, 5, 6],
'max_features': [2],
'min_impurity_decrease': [0.01, 0.02]
}

np.random.seed(1)
X = np.random.multivariate_normal(np.zeros(6), cov_matrix, size=Daten)
y = intercept + np.dot(X, coefficients) + np.random.randn(Daten)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)

rf = RandomForestRegressor(random_state=1)
rf_random = GridSearchCV(estimator=rf, param_grid=param_distributions, cv=3)
rf_random.fit(X_train, y_train)

best_params = rf_random.best_params_
print("Beste Hyperparameter:", best_params)

Я смоделировал набор данных с линейной зависимостью. Процесс генерации данных включает в себя определение точки пересечения и коэффициентов для шести признаков, генерацию данных признаков с использованием многомерного нормального распределения и вычисление целевой переменной с добавленным случайным шумом. Несмотря на использование GridSearchCV для оптимизации гиперпараметров, модель RF показывает высокие оценки R2 в обучающих данных, но низкие оценки R2 в тестовых данных, что указывает на переобучение.

Подробнее здесь: https://stackoverflow.com/questions/786 ... inear-data

1719924220

Anonymous

RF всегда переоснащается для моих линейных данных. Я попробовал оптимизацию гиперпараметров. Это общая проблема?
[code]   intercept=2
subscript_numbers = ['\u2081', '\u2082', '\u2083', '\u2084', '\u2085', '\u2086']
column_names = [f'x{subscript_numbers[i]}' for i in range(6)]
coefficients = np.array([1.5, -0.5, -1.5, 1.0, 0.0, 0.0])

n_simulations = 1000
Daten = 1000
cov_matrix = np.array([
[1.0, 0.3, 0.0, 0.0, 0.0, 0.0],  # x1
[0.3, 1.0, 0.0, 0.0, 0.0, 0.0],  # x2
[0.0, 0.0, 1.0, 0.0, 0.0, 0.0],  # x3
[0.0, 0.0, 0.0, 1.0, 0.3, 0.0],  # x4
[0.0, 0.0, 0.0, 0.3, 1.0, 0.0],  # x5
[0.0, 0.0, 0.0, 0.0, 0.0, 1.0]   # x6
])

train_r2_scores = []
test_r2_scores = []

for seed in range(n_simulations):
np.random.seed(seed)
X = np.random.multivariate_normal(np.zeros(6), cov_matrix, size=Daten)
y = intercept + np.dot(X, coefficients) + np.random.randn(Daten)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=seed)

rf = RandomForestRegressor(n_estimators=100, random_state=seed, max_features=2)
rf.fit(X_train, y_train)

y_train_pred = rf.predict(X_train)
y_test_pred = rf.predict(X_test)

train_r2 = r2_score(y_train, y_train_pred)
test_r2 = r2_score(y_test, y_test_pred)

train_r2_scores.append(train_r2)
test_r2_scores.append(test_r2)

average_train_r2 = np.mean(train_r2_scores)
average_test_r2 = np.mean(test_r2_scores)

results_df = pd.DataFrame({
"Simulation": np.arange(n_simulations),
"Train R2": train_r2_scores,
"Test R2": test_r2_scores
})

print(results_df)

print(f'Average Train R2: {average_train_r2}')
print(f'Average Test R2: {average_test_r2}')`

[/code]
RF всегда переоснащается для моих линейных данных. Я попробовал оптимизацию гиперпараметров.
из sklearn.model_selection import train_test_split, RandomizedSearchCV
Daten=1000
[code]   cov_matrix = np.array([
[1.0, 0.0, 0.0, 0.0, 0.0, 0.0],  # x1
[0.0, 1.0, 0.0, 0.0, 0.0, 0.0],  # x2
[0.0, 0.0, 1.0, 0.0, 0.0, 0.0],  # x3
[0.0, 0.0, 0.0, 1.0, 0.0, 0.0],  # x4
[0.0, 0.0, 0.0, 0.0, 1.0, 0.0],  # x5
[0.0, 0.0, 0.0, 0.0, 0.0, 1.0]   # x6
])

param_distributions = {
'max_depth': [5, 6, 7, 8, 9, 10],
'min_samples_split': [2, 3, 4, 5, 6],
'min_samples_leaf': [2, 3, 4, 5, 6],
'max_features': [2],
'min_impurity_decrease': [0.01, 0.02]
}

np.random.seed(1)
X = np.random.multivariate_normal(np.zeros(6), cov_matrix, size=Daten)
y = intercept + np.dot(X, coefficients) + np.random.randn(Daten)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)

rf = RandomForestRegressor(random_state=1)
rf_random = GridSearchCV(estimator=rf, param_grid=param_distributions, cv=3)
rf_random.fit(X_train, y_train)

best_params = rf_random.best_params_
print("Beste Hyperparameter:", best_params)

[/code]
Я смоделировал набор данных с линейной зависимостью. Процесс генерации данных включает в себя определение точки пересечения и коэффициентов для шести признаков, генерацию данных признаков с использованием многомерного нормального распределения и вычисление целевой переменной с добавленным случайным шумом. Несмотря на использование GridSearchCV для оптимизации гиперпараметров, модель RF показывает высокие оценки R2 в обучающих данных, но низкие оценки R2 в тестовых данных, что указывает на переобучение. 

Подробнее здесь: [url]https://stackoverflow.com/questions/78694226/overfitting-random-forest-linear-data[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Для моего анализа данных о ценах на жилье с использованием ГБ, дерева и случайного леса моя MSE слишком высока.

Последнее сообщение Anonymous « 09 май 2024, 02:44
Добавлено в форуме Python

Anonymous » 09 май 2024, 02:44 » в форуме Python

Я пробовал использовать все переменные, а не выбирать определенные переменные, однако MSE остается высоким. Вместо этого мне интересно, не ошибка ли это в моем коде. Я также пытался добавить некоторые инженерные функции, но пока закомментировал это,...

0 Ответы

32 Просмотры

Последнее сообщение Anonymous
09 май 2024, 02:44
Как улучшить производительность модели случайного леса для больших несбалансированных наборов данных в Python?

Последнее сообщение Anonymous « 18 окт 2024, 04:19
Добавлено в форуме Python

Anonymous » 18 окт 2024, 04:19 » в форуме Python

Я работал над моделью случайного леса, чтобы прогнозировать отток сотрудников. Мой набор данных сильно несбалансирован: около 80% случаев не истощения и 20% случаев истощения. Хотя я попробовал SMOTE для балансировки классов, точность моей модели...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
18 окт 2024, 04:19
Как улучшить производительность модели случайного леса для больших несбалансированных наборов данных?

Последнее сообщение Anonymous « 18 окт 2024, 11:56
Добавлено в форуме Python

Anonymous » 18 окт 2024, 11:56 » в форуме Python

Я работал над моделью случайного леса, чтобы прогнозировать отток сотрудников. Мой набор данных сильно несбалансирован: около 80% случаев не истощения и 20% случаев истощения. Хотя я попробовал SMOTE для балансировки классов, точность моей модели...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
18 окт 2024, 11:56
Обученная модель случайного леса из Python в Matlab

Последнее сообщение Гость « 14 мар 2024, 17:38
Добавлено в форуме Python

Гость » 14 мар 2024, 17:38 » в форуме Python

У меня есть модель, использующая случайный лес, разработанная на Python. Теперь я хочу использовать эту обученную сеть в Matlab. Как перенести обученную сеть с Python на Matlab. Может кто-нибудь, пожалуйста, дайте мне знать, как это сделать?
Я...

0 Ответы

33 Просмотры

Последнее сообщение Гость
14 мар 2024, 17:38
Как применить CalibratedClassifierCV при внешней проверке модели случайного леса

Последнее сообщение Anonymous « 02 июл 2024, 02:12
Добавлено в форуме Python

Anonymous » 02 июл 2024, 02:12 » в форуме Python

У меня есть модель, обученная на моих данных. Я использовал joblib, чтобы получить модель, и поделился ею с другими командами, чтобы оценить производительность модели на их данных. Один из членов команды вернулся и сказал, что модели не очень хорошо...

0 Ответы

32 Просмотры

Последнее сообщение Anonymous
02 июл 2024, 02:12

Вернуться в «Python»