Эта модель переоснащается или качество данных плохое? - Цифровое Кемерово

Эта модель переоснащается или качество данных плохое? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Эта модель переоснащается или качество данных плохое?

Цитата

Сообщение Anonymous » 12 май 2024, 11:12

Сейчас я работаю над проектом по машинному обучению. Это проблема контролируемого обучения. Моя цель - предсказать по заданным данным животного (содержание, размер, вес и т. д.) ингредиенты (энергия, витамины и т. д.). Сначала я очистил данные и закодировал категориальные функции с помощью LabelEncoding. Я выбираю случайный лес в качестве алгоритма, потому что читал, что деревья хороши для смешанных данных (категориальных и непрерывных). Итак, я обучил модель нескольким параметрам и заметил, что получаю отличные результаты обучения, но очень плохие результаты тестов. На мой взгляд, это указывает на переоснащение. Модель изучает шум. Я знаю, что у меня есть два варианта: больше данных и уменьшение сложности модели. Но я попробовал PCA, удалил некоторые функции, изменил гиперпараметр (max_length на 15). Но ни одно из этих действий не помогло. Я уменьшил max_глубину, но затем получил более высокую ошибку обучения, но по-прежнему огромную ошибку теста.
Так в чем же может быть проблема? Эта модель не подходит или данные слишком зашумлены?

Код: Выделить всё

from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.neural_network import MLPRegressor
from sklearn.decomposition import KernelPCA

param_grid = {
'n_estimators': [i for i in range(50, 500, 50)],
'max_depth': [i for i in range(5, 20, 5)],
}

estimator = RandomForestRegressor()
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.1, random_state=52)
X_train,scalerX = normalize(X_train)
Y_train,scalerY = normalize(Y_train)
X_test = scalerX.transform(X_test)
Y_test = scalerY.transform(Y_test)

gridModel = GridSearchCV(estimator=estimator,param_grid=param_grid,n_jobs=4,cv=5,scoring='neg_mean_squared_error')
gridModel.fit(X_train,Y_train)

print(gridModel.best_params_)

best_params: {'max_length': 15, 'n_estimators': 150
при изменении сетки на [i для i в диапазоне (5, 50, 5)], затем best_params: {'max_length': 30, 'n_estimators': 50

Код: Выделить всё

y_pred_test = gridModel.predict(X_test)
test_r2_score = r2_score(y_pred=y_pred_test,y_true=Y_test)

y_pred_train = gridModel.predict(X_train)
train_r2_score = r2_score(y_pred=y_pred_train,y_true=Y_train)

print("Result Test:",test_r2_score)
print("Result Train:",train_r2_score)

{'max_length': 15, 'n_estimators': 150
{'max_length': 15, 'n_estimators': 150
Результат теста: -2,952394644421328e+31
Последовательность результатов: 0,8043381537451035
{' max_глубина': 30, 'n_estimators': 50.Результат теста: -7.37835882483847e+30
Последовательность результатов: 0,9286384515560636

Подробнее здесь: https://stackoverflow.com/questions/784 ... ata-to-bad

Реклама

1715501568

Anonymous

Сейчас я работаю над проектом по машинному обучению. Это проблема контролируемого обучения. Моя цель - предсказать по заданным данным животного (содержание, размер, вес и т. д.) ингредиенты (энергия, витамины и т. д.). Сначала я очистил данные и закодировал категориальные функции с помощью LabelEncoding. Я выбираю случайный лес в качестве алгоритма, потому что читал, что деревья хороши для смешанных данных (категориальных и непрерывных). Итак, я обучил модель нескольким параметрам и заметил, что получаю отличные результаты обучения, но очень плохие результаты тестов. На мой взгляд, это указывает на переоснащение. Модель изучает шум. Я знаю, что у меня есть два варианта: больше данных и уменьшение сложности модели. Но я попробовал PCA, удалил некоторые функции, изменил гиперпараметр (max_length на 15). Но ни одно из этих действий не помогло. Я уменьшил max_глубину, но затем получил более высокую ошибку обучения, но по-прежнему огромную ошибку теста.
Так в чем же может быть проблема? Эта модель не подходит или данные слишком зашумлены?
[code]from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.neural_network import MLPRegressor
from sklearn.decomposition import KernelPCA

param_grid = {
'n_estimators': [i for i in range(50, 500, 50)],
'max_depth': [i for i in range(5, 20, 5)],
}

estimator = RandomForestRegressor()
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.1, random_state=52)
X_train,scalerX = normalize(X_train)
Y_train,scalerY = normalize(Y_train)
X_test = scalerX.transform(X_test)
Y_test = scalerY.transform(Y_test)

gridModel = GridSearchCV(estimator=estimator,param_grid=param_grid,n_jobs=4,cv=5,scoring='neg_mean_squared_error')
gridModel.fit(X_train,Y_train)

print(gridModel.best_params_)
[/code]
best_params: {'max_length': 15, 'n_estimators': 150
при изменении сетки на [i для i в диапазоне (5, 50, 5)], затем best_params: {'max_length': 30, 'n_estimators': 50
[code]y_pred_test = gridModel.predict(X_test)
test_r2_score = r2_score(y_pred=y_pred_test,y_true=Y_test)

y_pred_train = gridModel.predict(X_train)
train_r2_score = r2_score(y_pred=y_pred_train,y_true=Y_train)

print("Result Test:",test_r2_score)
print("Result Train:",train_r2_score)
[/code]
{'max_length': 15, 'n_estimators': 150
{'max_length': 15, 'n_estimators': 150
Результат теста: -2,952394644421328e+31
Последовательность результатов: 0,8043381537451035
{' max_глубина': 30, 'n_estimators': 50.Результат теста: -7.37835882483847e+30
Последовательность результатов: 0,9286384515560636 

Подробнее здесь: [url]https://stackoverflow.com/questions/78467117/is-this-model-overfitting-or-is-the-quality-of-the-data-to-bad[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Почему моя модель Imagecaption работает плохо, хотя она не переоснащается и имеет низкие потери?

Последнее сообщение Anonymous « 20 сен 2024, 15:14
Добавлено в форуме Python

Anonymous » 20 сен 2024, 15:14 » в форуме Python

Это моя модель подписи к изображению:
class ResnetEncoder(nn.Module):
def __init__(self, d_model):
super().__init__()
self.resnet = resnet50(weights=ResNet50_Weights.IMAGENET1K_V2)
self.resnet = nn.Sequential(*list(self.resnet.children()) )
self.fc...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
20 сен 2024, 15:14
Почему моя модель Imagecaption работает плохо, хотя она не переоснащается и имеет низкие потери?

Последнее сообщение Anonymous « 20 сен 2024, 19:45
Добавлено в форуме Python

Anonymous » 20 сен 2024, 19:45 » в форуме Python

Это моя модель подписи к изображению:
class ResnetEncoder(nn.Module):
def __init__(self, d_model):
super().__init__()
self.resnet = resnet50(weights=ResNet50_Weights.IMAGENET1K_V2)
self.resnet = nn.Sequential(*list(self.resnet.children()) )
self.fc...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
20 сен 2024, 19:45
Почему моя модель Imagecaption работает плохо, хотя она не переоснащается и имеет низкие потери?

Последнее сообщение Anonymous « 20 сен 2024, 21:24
Добавлено в форуме Python

Anonymous » 20 сен 2024, 21:24 » в форуме Python

Это моя модель подписи к изображению:
class ResnetEncoder(nn.Module):
def __init__(self, d_model):
super().__init__()
self.resnet = resnet50(weights=ResNet50_Weights.IMAGENET1K_V2)
self.resnet = nn.Sequential(*list(self.resnet.children()) )
self.fc...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
20 сен 2024, 21:24
Очень плохое качество звука, записанного на моем дроиде с помощью MediaRecorder, почему?

Последнее сообщение Anonymous « 07 дек 2023, 10:25
Добавлено в форуме Android

Anonymous » 07 дек 2023, 10:25 » в форуме Android

Мой проект требует, чтобы я мог записывать звук на устройстве Android. я реализовал решение с помощью MediaRecorder(), но записанный звук ужасного качества. Что я делаю не так? Я должен думать, что это не единственный способ записать звук :)...

0 Ответы

30 Просмотры

Последнее сообщение Anonymous
07 дек 2023, 10:25
ПЛОХОЕ КАЧЕСТВО ИЗОБРАЖЕНИЯ (растровое изображение Windows Forms C#)

Последнее сообщение Anonymous « 06 янв 2025, 21:52
Добавлено в форуме C#

Anonymous » 06 янв 2025, 21:52 » в форуме C#

Я создаю функцию для добавления изображения на страницу, но когда я сохраняю ее, качество становится просто ужасным . Такое ощущение, что на экране изображения одинакового качества, но разница очень большая. Есть ли способ сделать его намного лучше?...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
06 янв 2025, 21:52

Вернуться в «Python»

Programmiererforum