Обнаружено значение NaN между этапами конвейера, пользовательскими оценщиками sklearn и пользовательским сэмплером imble

Обнаружено значение NaN между этапами конвейера, пользовательскими оценщиками sklearn и пользовательским сэмплером imble ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Обнаружено значение NaN между этапами конвейера, пользовательскими оценщиками sklearn и пользовательским сэмплером imble

Цитата

Сообщение Anonymous » 06 ноя 2024, 15:59

Я пробовал собственный оценщик и собственный сэмплер.

Код: Выделить всё

MyFeatureConcator

и MyFeatureResampler — это пользовательские оценщики, которые я хотел бы использовать в качестве шагов в своем конвейере.
Обнаружена следующая ошибка:

ValueError: входные данные X содержат NaN.
MyFeatureResampler не принимает отсутствующие значения, закодированные как NaN. Для контролируемого обучения вы можете рассмотреть sklearn.ensemble.HistGradientBoostingClassifier и Regressor, которые принимают пропущенные значения, закодированные как NaN. В качестве альтернативы можно предварительно обработать данные, например, используя преобразователь в конвейере или отбросив выборки с пропущенными значениями. См. https://scikit-learn.org/stable/modules/impute.html. Список всех оценщиков, обрабатывающих значения NaN, можно найти на следующей странице: https://scikit-learn.org/stable/modules/impute. .html#estimators-that-handle-nan-values

Код:

Код: Выделить всё

import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from imblearn.over_sampling import SMOTE
from sklearn.base import BaseEstimator, TransformerMixin
from imblearn.base import BaseSampler, SamplerMixin
from imblearn.pipeline import Pipeline as ImbPipeline

# custom Concator
class MyFeatureConcator(BaseEstimator, TransformerMixin):
def __init__(self, df0_cols ,concatee):
self.concatee = concatee
self.df0_cols = df0_cols

def fit(self, X, y = None):
return self

def transform(self, X, y=None):
x = pd.DataFrame(data= X, columns= self.df0_cols)
X = pd.concat(objs = [x, self.concatee], axis = 1)
return X

# custom OverSampler (SMOTE)
class MyFeatureResampler(BaseSampler, SamplerMixin):
def __init__(self, kneigh=None):
self.kneigh = kneigh

def fit(self, X, y= None):
return self

def _fit_resample(self, X, y=None):
smote = SMOTE(k_neighbors= self.kneigh)
X_resample, y_resample = smote.fit_resample(X, y)
return (X_resample, y_resample)

# Estimators
scaler = StandardScaler()
concator = MyFeatureConcator(concatee= encoded_data, df0_cols=x.columns)
logistic = LogisticRegression(max_iter=3000)
knn = KNeighborsClassifier()
resampler = MyFeatureResampler()

# Pipeline steps
steps = [('scaler', scaler), ('concat', concator),('rsmp', resampler), ('clf', logistic)]
pipe = ImbPipeline(steps)

# Grid params
param1 = {'clf__C': np.linspace(0,1, 5),
'clf__penalty': ['elasticnet', 'l1', 'l2'],
'clf__solver' : ['saga'],
'clf__l1_ratio':np.linspace(0,1,6),
'clf': [logistic]
}

param2 = {'clf__n_neighbors':np.linspace(3,20,5,dtype=np.int_),
'clf':[knn]}

param3 = {'rsmp__kneigh': np.linspace(3,20,5, dtype=np.int_),
'rsmp':[resampler]}

params = [param1, param2, param3]

# GridSearch
grid = GridSearchCV(estimator= pipe, param_grid=params, cv = 5, verbose=1)
grid.fit(x, target)

Подтверждено, что x и target не имеют значений NaN
Здесь также не показано значение NaN:< /p>

Код: Выделить всё

pipe.named_steps['concat'].fit_transform(pipe.named_steps['scaler'].fit_transform(x)).isna().sum()

Encoded_data — это горячее кодирование для категориальных данных, где x — это числовые данные, которые я хотел масштабировать. После масштабирования x я хотел объединить x и encoded_data в один кадр данных, таким образом создав собственный оценщик MyFeatureConcator. Затем конкатор возвращает X, который должен быть передан в пользовательский ресэмплер MyFeatureResampler.
Я ожидаю, что пользовательский ресэмплер получит X от предыдущий конкатор и цель из сетки.fit(X, target), которая затем должна вернуть X_resampled и y_resampled, которые должны быть переданы на последнем этапе, т.е. классификатор .

Подробнее здесь: https://stackoverflow.com/questions/791 ... mators-and

1730897970

Anonymous

Я пробовал собственный оценщик и собственный сэмплер.[code]MyFeatureConcator[/code] и MyFeatureResampler — это пользовательские оценщики, которые я хотел бы использовать в качестве шагов в своем конвейере.
[b]Обнаружена следующая ошибка:[/b] 

ValueError: входные данные X содержат NaN.
MyFeatureResampler не принимает отсутствующие значения, закодированные как NaN. Для контролируемого обучения вы можете рассмотреть sklearn.ensemble.HistGradientBoostingClassifier и Regressor, которые принимают пропущенные значения, закодированные как NaN. В качестве альтернативы можно предварительно обработать данные, например, используя преобразователь в конвейере или отбросив выборки с пропущенными значениями. См. https://scikit-learn.org/stable/modules/impute.html. Список всех оценщиков, обрабатывающих значения NaN, можно найти на следующей странице: https://scikit-learn.org/stable/modules/impute. .html#estimators-that-handle-nan-values

[b]Код:[/b]
[code]import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from imblearn.over_sampling import SMOTE
from sklearn.base import BaseEstimator, TransformerMixin
from imblearn.base import BaseSampler, SamplerMixin
from imblearn.pipeline import Pipeline as ImbPipeline

# custom Concator
class MyFeatureConcator(BaseEstimator, TransformerMixin):
def __init__(self, df0_cols ,concatee):
self.concatee = concatee
self.df0_cols = df0_cols

def fit(self, X, y = None):
return self

def transform(self, X, y=None):
x = pd.DataFrame(data= X, columns= self.df0_cols)
X = pd.concat(objs = [x, self.concatee], axis = 1)
return X

# custom OverSampler (SMOTE)
class MyFeatureResampler(BaseSampler, SamplerMixin):
def __init__(self, kneigh=None):
self.kneigh = kneigh

def fit(self, X, y= None):
return self

def _fit_resample(self, X, y=None):
smote = SMOTE(k_neighbors= self.kneigh)
X_resample, y_resample = smote.fit_resample(X, y)
return (X_resample, y_resample)

# Estimators
scaler = StandardScaler()
concator = MyFeatureConcator(concatee= encoded_data, df0_cols=x.columns)
logistic = LogisticRegression(max_iter=3000)
knn = KNeighborsClassifier()
resampler = MyFeatureResampler()

# Pipeline steps
steps = [('scaler', scaler), ('concat', concator),('rsmp', resampler), ('clf', logistic)]
pipe = ImbPipeline(steps)

# Grid params
param1 = {'clf__C': np.linspace(0,1, 5),
'clf__penalty': ['elasticnet', 'l1', 'l2'],
'clf__solver' : ['saga'],
'clf__l1_ratio':np.linspace(0,1,6),
'clf': [logistic]
}

param2 = {'clf__n_neighbors':np.linspace(3,20,5,dtype=np.int_),
'clf':[knn]}

param3 = {'rsmp__kneigh': np.linspace(3,20,5, dtype=np.int_),
'rsmp':[resampler]}

params = [param1, param2, param3]

# GridSearch
grid = GridSearchCV(estimator= pipe, param_grid=params, cv = 5, verbose=1)
grid.fit(x, target)
[/code]
Подтверждено, что x и target не имеют значений NaN
Здесь также не показано значение NaN:< /p>
[code]pipe.named_steps['concat'].fit_transform(pipe.named_steps['scaler'].fit_transform(x)).isna().sum()
[/code]
Encoded_data — это горячее кодирование для категориальных данных, где x — это числовые данные, которые я хотел масштабировать. После масштабирования x я хотел объединить x и encoded_data в один кадр данных, таким образом создав собственный оценщик MyFeatureConcator. Затем конкатор возвращает X, который должен быть передан в пользовательский ресэмплер MyFeatureResampler.
Я ожидаю, что пользовательский ресэмплер получит X от предыдущий конкатор и цель из сетки.fit(X, target), которая затем должна вернуть X_resampled и y_resampled, которые должны быть переданы на последнем этапе, т.е. классификатор . 

Подробнее здесь: [url]https://stackoverflow.com/questions/79162696/encountered-nan-value-in-between-pipeline-steps-sklearns-custom-estimators-and[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Является ли number ("nan") = NAN, потому что JS распознает «NAN» как значение типа номера или потому, что это строка, а

Последнее сообщение Anonymous « 30 апр 2025, 09:46
Добавлено в форуме Javascript

Anonymous » 30 апр 2025, 09:46 » в форуме Javascript

Например, число («бесконечность») = бесконечность, потому что он распознает его как число типов, поэтому мне было интересно, если номер («NAN») = NAN по той же причине, по которой число («картофель») = NAN или потому, что он распознает его как...

0 Ответы

24 Просмотры

Последнее сообщение Anonymous
30 апр 2025, 09:46
Реализация sklearn.ensemble.GradientBoostingRegressor с помощью sklearn.multioutput.MultiOutputRegressor и sklearn.model

Последнее сообщение Anonymous « 02 дек 2024, 01:49
Добавлено в форуме Python

Anonymous » 02 дек 2024, 01:49 » в форуме Python

Я пытаюсь создать модели, поддерживающие многомерный вывод. Одна из моделей, которые я пытаюсь использовать, — это GradientBoostingRegressor, которая изначально не поддерживает многомерный вывод. Существует обходной путь с помощью...

0 Ответы

57 Просмотры

Последнее сообщение Anonymous
02 дек 2024, 01:49
Реализация sklearn.ensemble.GradientBoostingRegressor с помощью sklearn.multioutput.MultiOutputRegressor и sklearn.model

Последнее сообщение Anonymous « 02 дек 2024, 13:06
Добавлено в форуме Python

Anonymous » 02 дек 2024, 13:06 » в форуме Python

Я пытаюсь создать модели, поддерживающие многомерный вывод. Одна из моделей, которые я пытаюсь использовать, — это GradientBoostingRegressor, которая изначально не поддерживает многомерный вывод. Существует обходной путь с помощью...

0 Ответы

57 Просмотры

Последнее сообщение Anonymous
02 дек 2024, 13:06
Реализация sklearn.ensemble.GradientBoostingRegressor с помощью sklearn.multioutput.MultiOutputRegressor и sklearn.model

Последнее сообщение Anonymous « 07 дек 2024, 02:51
Добавлено в форуме Python

Anonymous » 07 дек 2024, 02:51 » в форуме Python

Я пытаюсь создать модели, поддерживающие многомерный вывод. Одна из моделей, которые я пытаюсь использовать, — это GradientBoostingRegressor, которая изначально не поддерживает многомерный вывод. Существует обходной путь с помощью...

0 Ответы

48 Просмотры

Последнее сообщение Anonymous
07 дек 2024, 02:51
Каков идиоматический способ разделения состояния между этапами сценария в Codeception?

Последнее сообщение Anonymous « 29 ноя 2024, 10:32
Добавлено в форуме Php

Anonymous » 29 ноя 2024, 10:32 » в форуме Php

Я использую Codeception PHP с языком Gherkin (расширение файла .feature). Я пытался найти идиоматический способ разделения состояния между этапами сценария. В моем случае реализация шага НЕ содержится в одном классе. Я мог бы поделиться состоянием...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
29 ноя 2024, 10:32

Вернуться в «Python»