Прогноз Sklearn занимает вечность

Прогноз Sklearn занимает вечность ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Цитата

Сообщение Anonymous » 31 июл 2024, 03:04

Я застрял в этом вопросе уже несколько дней, и мне очень нужна помощь. У меня возникла серьезная проблема с производительностью при использовании нескольких распространенных методов машинного обучения в sklearn. Я работаю над проблемой вероятностного прогнозирования (двоичной классификации) с набором данных, содержащим 5 миллионов наблюдений и 100 функций, используя такие модели, как LogisticRegrade(), MLPClassifier(), RandomForestClassifier() и LinearSVC() из sklearn.
Например, это настройка, которую я использовал для логистической регрессии L2 с перекрестной проверкой, чтобы найти лучший член регуляризации C из сетки c_grid = [1e-15, 1e-10, 1e-5 , 1д-1, 10]:

Код: Выделить всё

lr = LogisticRegression(class_weight=class_weight,
solver='sag', # I also tried 'liblinear'
max_iter=10000,
tol=0.1,
random_state=seed,
penalty='l2')

C = [1e-15, 1e-10, 1e-5, 1e-1, 10]
c_grid = {"C": C}
c_grid = {k: v for k, v in c_grid.items() if v is not None}

...

cv = StratifiedKFold(n_splits=5, random_state=seed, shuffle=True)
clf = GridSearchCV(estimator=lr,
param_grid=c_grid,
scoring='roc_auc',
cv=cv,
return_train_score=True).fit(X_train, Y_train)
best_model = clf.best_estimator_
prob = clf.predict_proba(X_train)[:, 1]
pred = clf.predict(X_train)

Однако весь процесс обучения занял почти 20 часов. Это нормально для набора данных такого размера или это может быть связано с неправильными параметрами или настройками? Например, я скорректировал различные параметры в LogisticRegrade, но ни один из них не улучшил ситуацию.
Плюс, когда я пытался использовать best_model для вычисления результатов тестирования

Код: Выделить всё

prob = clf.predict_proba(X_test)[:, 1]
pred = clf.predict(X_test)

Кажется, это займет целую вечность. Я попробовал распараллелить процесс чем-то вроде

Код: Выделить всё

X_test_batches = np.array_split(X_test, N)
args = [(best_model, batch) for batch in X_test_batches]

with Pool(N) as pool:
prob_batches = pool.map(predict_batch, args)
prob = np.concatenate(prob_batches)
pred = (prob >= 0.5)

но это не слишком помогло, поэтому в конечном итоге мне пришлось вручную реализовать свою собственную функцию прогнозирования (которая, очевидно, работает только для логистики, но не для других моделей, которые я хотел бы протестировать)

Код: Выделить всё

z = np.dot(X_test, best_model.coef_.T) + best_model.intercept_
prob = 1 / (1 + np.exp(-z))

Учитывая, что и обучение, и тестирование занимают неоправданно много времени, я предполагаю, что проблема может быть связана с clf.predict_proba() и clf.predict(). Однако я ожидаю, что sklearn сможет эффективно обрабатывать набор данных из нескольких миллионов наблюдений? Любая помощь будет принята с благодарностью, спасибо!

Подробнее здесь: https://stackoverflow.com/questions/788 ... es-forever

1722384262

Anonymous

Я застрял в этом вопросе уже несколько дней, и мне очень нужна помощь. У меня возникла серьезная проблема с производительностью при использовании нескольких распространенных методов машинного обучения в sklearn. Я работаю над проблемой вероятностного прогнозирования (двоичной классификации) с набором данных, содержащим 5 миллионов наблюдений и 100 функций, используя такие модели, как LogisticRegrade(), MLPClassifier(), RandomForestClassifier() и LinearSVC() из sklearn.
Например, это настройка, которую я использовал для логистической регрессии L2 с перекрестной проверкой, чтобы найти лучший член регуляризации C из сетки c_grid = [1e-15, 1e-10, 1e-5 , 1д-1, 10]:
[code]lr = LogisticRegression(class_weight=class_weight,
solver='sag', # I also tried 'liblinear'
max_iter=10000,
tol=0.1,
random_state=seed,
penalty='l2')

C = [1e-15, 1e-10, 1e-5, 1e-1, 10]
c_grid = {"C": C}
c_grid = {k: v for k, v in c_grid.items() if v is not None}

...

cv = StratifiedKFold(n_splits=5, random_state=seed, shuffle=True)
clf = GridSearchCV(estimator=lr,
param_grid=c_grid,
scoring='roc_auc',
cv=cv,
return_train_score=True).fit(X_train, Y_train)
best_model = clf.best_estimator_
prob = clf.predict_proba(X_train)[:, 1]
pred = clf.predict(X_train)
[/code]
Однако весь процесс обучения занял почти 20 часов. Это нормально для набора данных такого размера или это может быть связано с неправильными параметрами или настройками? Например, я скорректировал различные параметры в LogisticRegrade, но ни один из них не улучшил ситуацию.
Плюс, когда я пытался использовать best_model для вычисления результатов тестирования
[code]prob = clf.predict_proba(X_test)[:, 1]
pred = clf.predict(X_test)
[/code]
Кажется, это займет целую вечность. Я попробовал распараллелить процесс чем-то вроде
[code]X_test_batches = np.array_split(X_test, N)
args = [(best_model, batch) for batch in X_test_batches]

with Pool(N) as pool:
prob_batches = pool.map(predict_batch, args)
prob = np.concatenate(prob_batches)
pred = (prob >= 0.5)
[/code]
но это не слишком помогло, поэтому в конечном итоге мне пришлось вручную реализовать свою собственную функцию прогнозирования (которая, очевидно, работает только для логистики, но не для других моделей, которые я хотел бы протестировать) 
[code]z = np.dot(X_test, best_model.coef_.T) + best_model.intercept_
prob = 1 / (1 + np.exp(-z))
[/code]
Учитывая, что и обучение, и тестирование занимают неоправданно много времени, я предполагаю, что проблема может быть связана с clf.predict_proba() и clf.predict(). Однако я ожидаю, что sklearn сможет эффективно обрабатывать набор данных из нескольких миллионов наблюдений? Любая помощь будет принята с благодарностью, спасибо! 

Подробнее здесь: [url]https://stackoverflow.com/questions/78814028/sklearn-prediction-takes-forever[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Реализация sklearn.ensemble.GradientBoostingRegressor с помощью sklearn.multioutput.MultiOutputRegressor и sklearn.model

Последнее сообщение Anonymous « 02 дек 2024, 01:49
Добавлено в форуме Python

Anonymous » 02 дек 2024, 01:49 » в форуме Python

Я пытаюсь создать модели, поддерживающие многомерный вывод. Одна из моделей, которые я пытаюсь использовать, — это GradientBoostingRegressor, которая изначально не поддерживает многомерный вывод. Существует обходной путь с помощью...

0 Ответы

50 Просмотры

Последнее сообщение Anonymous
02 дек 2024, 01:49
Реализация sklearn.ensemble.GradientBoostingRegressor с помощью sklearn.multioutput.MultiOutputRegressor и sklearn.model

Последнее сообщение Anonymous « 02 дек 2024, 13:06
Добавлено в форуме Python

Anonymous » 02 дек 2024, 13:06 » в форуме Python

Я пытаюсь создать модели, поддерживающие многомерный вывод. Одна из моделей, которые я пытаюсь использовать, — это GradientBoostingRegressor, которая изначально не поддерживает многомерный вывод. Существует обходной путь с помощью...

0 Ответы

54 Просмотры

Последнее сообщение Anonymous
02 дек 2024, 13:06
Реализация sklearn.ensemble.GradientBoostingRegressor с помощью sklearn.multioutput.MultiOutputRegressor и sklearn.model

Последнее сообщение Anonymous « 07 дек 2024, 02:51
Добавлено в форуме Python

Anonymous » 07 дек 2024, 02:51 » в форуме Python

Я пытаюсь создать модели, поддерживающие многомерный вывод. Одна из моделей, которые я пытаюсь использовать, — это GradientBoostingRegressor, которая изначально не поддерживает многомерный вывод. Существует обходной путь с помощью...

0 Ответы

39 Просмотры

Последнее сообщение Anonymous
07 дек 2024, 02:51
Оценка тренера Трансформеров занимает вечность

Последнее сообщение Anonymous « 29 фев 2024, 18:41
Добавлено в форуме Python

Anonymous » 29 фев 2024, 18:41 » в форуме Python

Я пытаюсь создать личный пилотный код на основе этого блога с набором данных C#, который имеет около 40 тысяч строк файлов (всего около 7 миллиардов строк кода) с той же структурой, что и smangrul/hug_stack, и это репо для кода. Модель, которую я...

0 Ответы

62 Просмотры

Последнее сообщение Anonymous
29 фев 2024, 18:41
Флаттер: Запуск... занимает целую вечность

Последнее сообщение Anonymous « 13 апр 2024, 15:56
Добавлено в форуме IOS

Anonymous » 13 апр 2024, 15:56 » в форуме IOS

Я разрабатываю проект flutter на своем Mac Mini M1.
В моем проекте flutter выберите мой настоящий iphone (iOS 17.4.1) в качестве текущего устройства, Выполните Без отладки Запуск Flutter... остается навсегда, мое приложение не может загрузиться....

0 Ответы

52 Просмотры

Последнее сообщение Anonymous
13 апр 2024, 15:56

Вернуться в «Python»