Как сократить разрыв между результатами обучения и тестов для разных моделей машинного обучения? - Цифровое Кемерово

Как сократить разрыв между результатами обучения и тестов для разных моделей машинного обучения? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как сократить разрыв между результатами обучения и тестов для разных моделей машинного обучения?

Цитата

Сообщение Anonymous » 29 июн 2024, 20:20

Я использую несколько моделей машинного обучения для прогнозирования AQI. Данные представлены в ежедневном формате и содержат 1850 записей. Я получаю оценку R2 в поезде около 99 и оценку за тест около 91. Нормален ли этот разрыв? Если нет, как я могу улучшить свой результат на тесте?

Код: Выделить всё

X = data[['Year', 'Month', 'Day', 'Raw Conc.', 'NowCast Conc.']]
y = data['AQI']

# Data Splitting into training and test sets using time series splitting
data = data.sort_values(by=['Year', 'Month', 'Day'])

# Define your features (X) and target variable (y)
X = data[['Year', 'Month', 'Day', 'Raw Conc.', 'NowCast Conc.']]
y = data['AQI']

# Split data into training and test sets based on a time-based approach
# Example: Use first 80% of data for training, last 20% for testing
split_index = int(len(data) * 0.8)
X_train, X_test = X.iloc[:split_index], X.iloc[split_index:]
y_train, y_test = y.iloc[:split_index], y.iloc[split_index:]

# Standardize the features
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Parameter grids for each model
param_grids = {
"Decision Tree": {'max_depth': [3, 5, 7, 10]},
"Random Forest": {'n_estimators': [50, 100, 200], 'max_depth': [3, 5, 7, 10]},
"Gradient Boosting": {'n_estimators': [50, 100, 200], 'learning_rate': [0.01, 0.1, 0.2], 'max_depth': [3, 5, 7]},
"AdaBoost": {'n_estimators': [50, 100, 200], 'learning_rate': [0.01, 0.1, 0.5]},
"XGBoost": {'n_estimators': [50, 100, 200], 'learning_rate': [0.01, 0.1, 0.2], 'max_depth': [3, 5, 7]},
"CatBoost": {'iterations': [50, 100, 200], 'learning_rate': [0.01, 0.1, 0.2], 'depth': [3, 5, 7]},
}
# List of models to evaluate
models = [
("Decision Tree", DecisionTreeRegressor(random_state=42)),
("Random Forest", RandomForestRegressor(random_state=42)),
("Gradient Boosting", GradientBoostingRegressor(random_state=42)),
("AdaBoost", AdaBoostRegressor(random_state=42)),
("XGBoost", XGBRegressor(random_state=42)),
("CatBoost", CatBoostRegressor(verbose=0)),
]
model_performance = {}
feature_importance_dict = {}
predictions = {}

for name, model in models:
param_grid = param_grids[name]

if param_grid:
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=3, scoring='neg_mean_squared_error')
grid_search.fit(X_train_scaled, y_train)
best_model = grid_search.best_estimator_
else:
best_model = model
best_model.fit(X_train_scaled, y_train)

# Calculate predictions
y_train_pred = best_model.predict(X_train_scaled)
y_test_pred = best_model.predict(X_test_scaled)

# Store predictions
predictions[name] = {'model_name': name, 'y_test_pred': y_test_pred}

# Calculate evaluation metrics for train set
train_rmse = np.sqrt(mean_squared_error(y_train, y_train_pred))
train_r2 = r2_score(y_train, y_train_pred)
train_mae = mean_absolute_error(y_train, y_train_pred)

# Calculate evaluation metrics for test set
test_rmse = np.sqrt(mean_squared_error(y_test, y_test_pred))
test_r2 = r2_score(y_test, y_test_pred)
test_mae = mean_absolute_error(y_test, y_test_pred)

# Store model performance metrics
model_performance[name] = {
"Train_RMSE": train_rmse,
"Train_R2": train_r2,
"Train_MAE": train_mae,
"Test_RMSE": test_rmse,
"Test_R2": test_r2,
"Test_MAE": test_mae
}

if hasattr(best_model, 'feature_importances_') or hasattr(best_model, 'coef_'):
feature_importances = best_model.feature_importances_ if hasattr(best_model, 'feature_importances_') else best_model.coef_

# Get feature names
if isinstance(best_model, (LinearRegression, Ridge, Lasso)):  # For linear models
feature_names = ['Raw Conc.', 'NowCast Conc.']
else:  # For other models
feature_names = ['Raw Conc.', 'NowCast Conc.']

# Store feature importances with feature names
feature_importance_dict[name] = {feature_names[i]:  feature_importances[i] for i in range(min(len(feature_importances), len(feature_names)))}

# Convert model performance dictionary to DataFrame
model_performance_df = pd.DataFrame.from_dict(model_performance, orient='index')

# Print model performance
print(model_performance_df)

Я попробовал два подхода:

Разделение набора данных с использованием подхода временных рядов с фиксированным окном
Разделение набора данных с использованием подхода, основанного на времени.
Подход, основанный на времени, улучшил результат теста всего на несколько баллов.

Подробнее здесь: https://stackoverflow.com/questions/786 ... learning-m

Реклама

1719681628

Anonymous

Я использую несколько моделей машинного обучения для прогнозирования AQI. Данные представлены в ежедневном формате и содержат 1850 записей. Я получаю оценку R2 в поезде около 99 и оценку за тест около 91.  Нормален ли этот разрыв? Если нет, как я могу улучшить свой результат на тесте?
[code]X = data[['Year', 'Month', 'Day', 'Raw Conc.', 'NowCast Conc.']]
y = data['AQI']

# Data Splitting into training and test sets using time series splitting
data = data.sort_values(by=['Year', 'Month', 'Day'])

# Define your features (X) and target variable (y)
X = data[['Year', 'Month', 'Day', 'Raw Conc.', 'NowCast Conc.']]
y = data['AQI']

# Split data into training and test sets based on a time-based approach
# Example: Use first 80% of data for training, last 20% for testing
split_index = int(len(data) * 0.8)
X_train, X_test = X.iloc[:split_index], X.iloc[split_index:]
y_train, y_test = y.iloc[:split_index], y.iloc[split_index:]

# Standardize the features
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Parameter grids for each model
param_grids = {
"Decision Tree": {'max_depth': [3, 5, 7, 10]},
"Random Forest": {'n_estimators': [50, 100, 200], 'max_depth': [3, 5, 7, 10]},
"Gradient Boosting": {'n_estimators': [50, 100, 200], 'learning_rate': [0.01, 0.1, 0.2], 'max_depth': [3, 5, 7]},
"AdaBoost": {'n_estimators': [50, 100, 200], 'learning_rate': [0.01, 0.1, 0.5]},
"XGBoost": {'n_estimators': [50, 100, 200], 'learning_rate': [0.01, 0.1, 0.2], 'max_depth': [3, 5, 7]},
"CatBoost": {'iterations': [50, 100, 200], 'learning_rate': [0.01, 0.1, 0.2], 'depth': [3, 5, 7]},
}
# List of models to evaluate
models = [
("Decision Tree", DecisionTreeRegressor(random_state=42)),
("Random Forest", RandomForestRegressor(random_state=42)),
("Gradient Boosting", GradientBoostingRegressor(random_state=42)),
("AdaBoost", AdaBoostRegressor(random_state=42)),
("XGBoost", XGBRegressor(random_state=42)),
("CatBoost", CatBoostRegressor(verbose=0)),
]
model_performance = {}
feature_importance_dict = {}
predictions = {}

for name, model in models:
param_grid = param_grids[name]

if param_grid:
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=3, scoring='neg_mean_squared_error')
grid_search.fit(X_train_scaled, y_train)
best_model = grid_search.best_estimator_
else:
best_model = model
best_model.fit(X_train_scaled, y_train)

# Calculate predictions
y_train_pred = best_model.predict(X_train_scaled)
y_test_pred = best_model.predict(X_test_scaled)

# Store predictions
predictions[name] = {'model_name': name, 'y_test_pred': y_test_pred}

# Calculate evaluation metrics for train set
train_rmse = np.sqrt(mean_squared_error(y_train, y_train_pred))
train_r2 = r2_score(y_train, y_train_pred)
train_mae = mean_absolute_error(y_train, y_train_pred)

# Calculate evaluation metrics for test set
test_rmse = np.sqrt(mean_squared_error(y_test, y_test_pred))
test_r2 = r2_score(y_test, y_test_pred)
test_mae = mean_absolute_error(y_test, y_test_pred)

# Store model performance metrics
model_performance[name] = {
"Train_RMSE": train_rmse,
"Train_R2": train_r2,
"Train_MAE": train_mae,
"Test_RMSE": test_rmse,
"Test_R2": test_r2,
"Test_MAE": test_mae
}

if hasattr(best_model, 'feature_importances_') or hasattr(best_model, 'coef_'):
feature_importances = best_model.feature_importances_ if hasattr(best_model, 'feature_importances_') else best_model.coef_

# Get feature names
if isinstance(best_model, (LinearRegression, Ridge, Lasso)):  # For linear models
feature_names = ['Raw Conc.', 'NowCast Conc.']
else:  # For other models
feature_names = ['Raw Conc.', 'NowCast Conc.']

# Store feature importances with feature names
feature_importance_dict[name] = {feature_names[i]:  feature_importances[i] for i in range(min(len(feature_importances), len(feature_names)))}

# Convert model performance dictionary to DataFrame
model_performance_df = pd.DataFrame.from_dict(model_performance, orient='index')

# Print model performance
print(model_performance_df)
[/code]
Я попробовал два подхода:
[list]
[*]Разделение набора данных с использованием подхода временных рядов с фиксированным окном
[*]Разделение набора данных с использованием подхода, основанного на времени.
Подход, основанный на времени, улучшил результат теста всего на несколько баллов.
[/list] 

Подробнее здесь: [url]https://stackoverflow.com/questions/78686637/how-to-reduce-gap-between-train-and-test-scores-for-different-machine-learning-m[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как сократить разрыв между результатами обучения и тестов для разных моделей машинного обучения?

Последнее сообщение Anonymous « 29 июн 2024, 21:13
Добавлено в форуме Python

Anonymous » 29 июн 2024, 21:13 » в форуме Python

Я использую несколько моделей машинного обучения для прогнозирования AQI. Данные представлены в ежедневном формате и содержат 1850 записей. Я получаю оценку R2 в поезде около 99 и оценку за тест около 91. Нормален ли этот разрыв? Если нет, как я...

0 Ответы

40 Просмотры

Последнее сообщение Anonymous
29 июн 2024, 21:13
Создайте набор данных помеченных изображений для моделей машинного обучения.

Последнее сообщение Anonymous « 03 ноя 2024, 23:42
Добавлено в форуме Python

Anonymous » 03 ноя 2024, 23:42 » в форуме Python

Мой вопрос заключается в том, как создать размеченный набор данных изображений для машинного обучения?

Я всегда работал с уже доступными наборами данных, поэтому сталкиваюсь с трудностями в том, как это сделать. помеченный набор данных изображений...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
03 ноя 2024, 23:42
Создайте набор данных помеченных изображений для моделей машинного обучения.

Последнее сообщение Anonymous « 04 ноя 2024, 01:02
Добавлено в форуме Python

Anonymous » 04 ноя 2024, 01:02 » в форуме Python

Мой вопрос заключается в том, как создать размеченный набор данных изображений для машинного обучения?

Я всегда работал с уже доступными наборами данных, поэтому сталкиваюсь с трудностями в том, как это сделать. помеченный набор данных изображений...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
04 ноя 2024, 01:02
Взвешивание экземпляров обучения по времени в моделях машинного обучения

Последнее сообщение Anonymous « 06 мар 2024, 15:50
Добавлено в форуме Python

Anonymous » 06 мар 2024, 15:50 » в форуме Python

I am training a neural network based on data whose relevance I think diminishes based on how far each instance is in the past. I've had a look and one way to do this it seems is to 'weight' training instances according to recency, using some kind of...

0 Ответы

135 Просмотры

Последнее сообщение Anonymous
06 мар 2024, 15:50
Как сохранить данные о следующем формате в файл для обучения на языке видения модели машинного обучения

Последнее сообщение Anonymous « 16 май 2025, 17:17
Добавлено в форуме Python

Anonymous » 16 май 2025, 17:17 » в форуме Python

У меня есть данные о следующем формате JSON:
from datasets import load_dataset

train_dataset, eval_dataset, test_dataset = load_dataset(
HuggingFaceM4/ChartQA ,
split=['train ', 'val ', 'test ']
)

[{'role': 'system',
'content': },
{'role':...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
16 май 2025, 17:17

Вернуться в «Python»

Programmiererforum