Как выполнить перекрестную проверку и поиск по сетке, если у меня есть настроенная модель ансамбля в конвейере Python

Как выполнить перекрестную проверку и поиск по сетке, если у меня есть настроенная модель ансамбля в конвейере Python ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как выполнить перекрестную проверку и поиск по сетке, если у меня есть настроенная модель ансамбля в конвейере Python

Цитата

Сообщение Anonymous » 07 ноя 2024, 02:00

Я создаю индивидуальную модель ансамбля и хотел бы выполнить перекрестную проверку и поиск по сетке в Python с помощью конвейера. Как мне это сделать?
У меня есть набор данных, содержащий веб-контент. Я хочу

Разделить контент одной веб-страницы на две части. Причина разделения заключается в том, что текст находится в разных местах страницы, и я хочу обрабатывать их отдельно.
Я тренирую модель1, используя только функции из части 1 и обучаем модель 2, используя только функции из части 2.
Предположим, я получил оценку от модели 1 как S1, и оценка из модели2 как S2. Я обучаю другую модель, например модель логистической регрессии, для объединения этих двух оценок в итоговую оценку S.

посредством этого весь процесс, есть ли способ использовать конвейер ML в sklearn для перекрестной проверки и поиска по сетке?

Я ценю ответ Дева ниже, однако, когда Я пытался сделать то же самое, но столкнулся с новыми проблемами.
У меня есть следующий код:
data = pd.DataFrame(columns = ['landingVector', 'contentVector', 'label'])

def extractLandingData(X):
return X['landingVector']

def extractContentData(X):
return X['contentVector']

svm_landing = Pipeline([
("extractLanding", FunctionTransformer(extractLandingData)),
("svmLanding", SVC(random_state=0, class_weight='balanced', kernel='linear', probability=True)),
])
svm_content = Pipeline([
("extractContent", FunctionTransformer(extractContentData)),
("svmContent", SVC(random_state=0, class_weight='balanced', kernel='linear', probability=True)),
])

stage_pipeline = FeatureUnion([
("svmForLanding", svm_landing),
("svmForContent", svm_content),
])

full_pipeline = Pipeline([
("stagePipeline", stage_pipeline),
("lr", LogisticRegression())
])

params = [
{
"stagePipeline__svmForLanding__svmLanding__C": [3,5,10],
"full_pipeline__lr__C": [1, 5, 10],
"full_pipeline__lr__penalty": ['l1', 'l2']
}
]

grid_search = GridSearchCV(full_pipeline, params, cv=3, verbose=3, return_train_score=True, n_jobs=-1)
X_train = df[['landingVector', 'contentVector']]
y_train = df['label']
grid_search.fit(X_train, y_train)

Затем я получил сообщение об ошибке:
---------------------------------------------------------------------------
TypeError Traceback (most recent call last) in
23 stage_pipeline = FeatureUnion([
24 ("svmForLanding", svm_landing),
---> 25 ("svmForContent", svm_content),
26 ])
27

~/anaconda3/lib/python3.7/site-packages/sklearn/pipeline.py in
__init__(self, transformer_list, n_jobs, transformer_weights)
672 self.n_jobs = n_jobs
673 self.transformer_weights = transformer_weights
--> 674 self._validate_transformers()
675
676 def get_params(self, deep=True):

~/anaconda3/lib/python3.7/site-packages/sklearn/pipeline.py in
_validate_transformers(self)
716 raise TypeError("All estimators should implement fit and "
717 "transform. '%s' (type %s) doesn't" %
--> 718 (t, type(t)))
719
720 def _iter(self):

TypeError: All estimators should implement fit and transform. 'Pipeline(memory=None,
steps=[('extractLanding', FunctionTransformer(accept_sparse=False, check_inverse=True,
func=,
inv_kw_args=None, inverse_func=None, kw_args=None,
pass_y='deprecated', validate=None)), ('svmLanding', SVC(C=1.0, cache_size=200...inear', max_iter=-1, probability=True, random_state=0, shrinking=True, tol=0.001, verbose=False))])' (type ) doesn't

Подробнее здесь: https://stackoverflow.com/questions/576 ... mble-model

1730934015

Anonymous

Я создаю индивидуальную модель ансамбля и хотел бы выполнить перекрестную проверку и поиск по сетке в Python с помощью конвейера. Как мне это сделать?
У меня есть набор данных, содержащий веб-контент. Я хочу
[list]
[*]Разделить контент одной веб-страницы на две части. Причина разделения заключается в том, что текст находится в разных местах страницы, и я хочу обрабатывать их отдельно.

[*]Я тренирую модель1, используя только функции из части 1 и обучаем модель 2, используя только функции из части 2.

[*]Предположим, я получил оценку от модели 1 как S1, и оценка из модели2 как S2. Я обучаю другую модель, например модель логистической регрессии, для объединения этих двух оценок в итоговую оценку S.

[/list]
посредством этого весь процесс, есть ли способ использовать конвейер ML в sklearn для перекрестной проверки и поиска по сетке?

Я ценю ответ Дева ниже, однако, когда Я пытался сделать то же самое, но столкнулся с новыми проблемами.
У меня есть следующий код:
data = pd.DataFrame(columns = ['landingVector', 'contentVector', 'label'])

def extractLandingData(X):
return X['landingVector']

def extractContentData(X):
return X['contentVector']

svm_landing = Pipeline([
("extractLanding", FunctionTransformer(extractLandingData)),
("svmLanding", SVC(random_state=0, class_weight='balanced', kernel='linear', probability=True)),
])
svm_content = Pipeline([
("extractContent", FunctionTransformer(extractContentData)),
("svmContent", SVC(random_state=0, class_weight='balanced', kernel='linear', probability=True)),
])

stage_pipeline = FeatureUnion([
("svmForLanding", svm_landing),
("svmForContent", svm_content),
])

full_pipeline = Pipeline([
("stagePipeline", stage_pipeline),
("lr", LogisticRegression())
])

params = [
{
"stagePipeline__svmForLanding__svmLanding__C": [3,5,10],
"full_pipeline__lr__C": [1, 5, 10],
"full_pipeline__lr__penalty": ['l1', 'l2']
}
]

grid_search = GridSearchCV(full_pipeline, params, cv=3, verbose=3, return_train_score=True, n_jobs=-1)
X_train = df[['landingVector', 'contentVector']]
y_train = df['label']
grid_search.fit(X_train, y_train)

Затем я получил сообщение об ошибке:
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)  in 
23 stage_pipeline = FeatureUnion([
24     ("svmForLanding", svm_landing),
---> 25     ("svmForContent", svm_content),
26 ])
27

~/anaconda3/lib/python3.7/site-packages/sklearn/pipeline.py in
__init__(self, transformer_list, n_jobs, transformer_weights)
672         self.n_jobs = n_jobs
673         self.transformer_weights = transformer_weights
--> 674         self._validate_transformers()
675
676     def get_params(self, deep=True):

~/anaconda3/lib/python3.7/site-packages/sklearn/pipeline.py in
_validate_transformers(self)
716                 raise TypeError("All estimators should implement fit and "
717                                 "transform. '%s' (type %s) doesn't" %
--> 718                                 (t, type(t)))
719
720     def _iter(self):

TypeError: All estimators should implement fit and transform. 'Pipeline(memory=None,
steps=[('extractLanding', FunctionTransformer(accept_sparse=False, check_inverse=True,
func=,
inv_kw_args=None, inverse_func=None, kw_args=None,
pass_y='deprecated', validate=None)), ('svmLanding', SVC(C=1.0, cache_size=200...inear', max_iter=-1, probability=True, random_state=0,   shrinking=True, tol=0.001, verbose=False))])' (type ) doesn't
 

Подробнее здесь: [url]https://stackoverflow.com/questions/57629912/how-to-do-cross-validation-and-grid-search-if-i-have-a-customized-ensemble-model[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как указать уровни для итерации при поиске по сетке с помощью классификатора ансамбля?

Последнее сообщение Anonymous « 05 янв 2025, 14:44
Добавлено в форуме Python

Anonymous » 05 янв 2025, 14:44 » в форуме Python

У меня есть следующая настройка, но я не могу найти способ пройти уровни для исследования в поиске по сетке для svm* и mlp*:
steps = [('preprocessing', StandardScaler()),
('feature_selection', SelectKBest(mutual_info_classif, k=15)),
('clf',...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
05 янв 2025, 14:44
Как указать уровни для итерации при поиске по сетке с помощью классификатора ансамбля?

Последнее сообщение Anonymous « 06 янв 2025, 22:54
Добавлено в форуме Python

Anonymous » 06 янв 2025, 22:54 » в форуме Python

У меня есть следующая настройка, но я не могу найти способ пройти уровни для исследования в поиске по сетке для svm* и mlp*:
steps = [('preprocessing', StandardScaler()),
('feature_selection', SelectKBest(mutual_info_classif, k=15)),
('clf',...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
06 янв 2025, 22:54
Почему мой randomforestclassifier переполняет, несмотря на то, что использует перекрестную проверку?

Последнее сообщение Anonymous « 21 апр 2025, 07:22
Добавлено в форуме Python

Anonymous » 21 апр 2025, 07:22 » в форуме Python

Я работаю над проблемой бинарной классификации, используя randomforestclassifier из Scikit-Learn. Мой набор данных имеет ~ 10000 строк и ~ 20 численных функций. Я использовал train_test_split и cross_val_score, но моя модель очень хорошо работает в...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
21 апр 2025, 07:22
Как интегрировать модель ансамбля Yolo Pytorch (файл .pt) в веб-приложение Django для прогнозов изображений в реальном в

Последнее сообщение Anonymous « 07 июн 2025, 10:09
Добавлено в форуме Python

Anonymous » 07 июн 2025, 10:09 » в форуме Python

Я строю веб -приложение Django, где пользователи могут загружать изображения для обнаружения объектов, используя модель ансамбля YOLO, сохраненную в виде файла .pt. Эта модель включает в себя клавиши, такие как «Модель», «Имена», «Стрид» и...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
07 июн 2025, 10:09
Точно настроенная модель чата Llama2 не может отвечать на вопросы из набора данных.

Последнее сообщение Anonymous « 04 июл 2024, 10:35
Добавлено в форуме Python

Anonymous » 04 июл 2024, 10:35 » в форуме Python

Я настроил llama2-chat, используя этот набор данных: celsowm/guanaco-llama2-1k1
По сути, это форк с дополнительным вопросом:

Who is Mosantos? Mosantos is vilar do teles' perkiest kid

Итак, мой код поезда был:
dataset_name =...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
04 июл 2024, 10:35

Вернуться в «Python»