Вложенный пример перекрестной проверки на Scikit-learn

Вложенный пример перекрестной проверки на Scikit-learn ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Вложенный пример перекрестной проверки на Scikit-learn

Цитата

Сообщение Anonymous » 28 июн 2025, 16:02

Я пытаюсь разобраться с примером вложенного и не вложенного резюме в Sklearn. Я проверил несколько ответов, но я все еще запутался в примере. Следовательно, из набора данных x, Внешний 10-кратный CV (для простоты n = 10) создает 10 учебных наборов и 10 тестовых наборов:

Код: Выделить всё

(Tr0, Te0),..., (Tr0, Te9)

Тогда, внутреннее Inner 10-CV Sptits Каждый набор обучения на 10 тренинга и 10 тестовых наборов:

Код: Выделить всё

From Tr0: (Tr0_0,Te_0_0), ... , (Tr0_9,Te0_9)
From Tr9: (Tr9_0,Te_9_0), ... , (Tr9_9,Te9_9)

Теперь, используя внутреннее резюме, мы можем найти лучшие значения c для каждого внешнего обучающего набора. Это делается путем проверки всех возможных значений c с внутренним CV. Значение, обеспечивающее наивысшую производительность (например, точность), выбирается для этого конкретного внешнего обучающего набора. Наконец, обнаружив лучшие значения c для каждого внешнего обучающего набора, мы можем рассчитать беспристрастную точность, используя внешние наборы тестов. С помощью этой процедуры образцы, используемые для идентификации наилучшего параметра (то есть c ), не используются для вычисления производительности классификатора, следовательно, мы имеем абсолютно беспристрастную проверку.inner_cv = KFold(n_splits=4, shuffle=True, random_state=i)
outer_cv = KFold(n_splits=4, shuffle=True, random_state=i)

# Non_nested parameter search and scoring
clf = GridSearchCV(estimator=svm, param_grid=p_grid, cv=inner_cv)
clf.fit(X_iris, y_iris)
non_nested_scores = clf.best_score_

# Nested CV with parameter optimization
nested_score = cross_val_score(clf, X=X_iris, y=y_iris, cv=outer_cv)
nested_scores = nested_score.mean()
< /code>
Из того, что я понимаю, код просто вычисляет оценки, используя две разные перекрестные проверки (т.е. различные разделения на обучение и набор тестирования). Оба они использовали весь набор данных. gridcv идентифицирует лучшие параметры с использованием одного (из двух CV), затем cross_val_score вычисляется со вторым CV, производительность при использовании лучших параметров. Что мне не хватает в примере?

Подробнее здесь: https://stackoverflow.com/questions/466 ... ikit-learn

1751115735

Anonymous

 Я пытаюсь разобраться с примером вложенного и не вложенного резюме в Sklearn. Я проверил несколько ответов, но я все еще запутался в примере. Следовательно, из набора данных x, [b] Внешний [/b] 10-кратный CV (для простоты n = 10) создает 10 учебных наборов и 10 тестовых наборов: 
[code](Tr0, Te0),..., (Tr0, Te9)
[/code]
Тогда, внутреннее [b] Inner [/b] 10-CV Sptits [b] Каждый [/b] набор обучения на 10 тренинга и 10 тестовых наборов: 
[code]From Tr0: (Tr0_0,Te_0_0), ... , (Tr0_9,Te0_9)
From Tr9: (Tr9_0,Te_9_0), ... , (Tr9_9,Te9_9)
[/code]
Теперь, используя внутреннее резюме, мы можем найти лучшие значения  c  для каждого внешнего обучающего набора. Это делается путем проверки всех возможных значений  c  с внутренним CV. Значение, обеспечивающее наивысшую производительность (например, точность), выбирается для этого конкретного внешнего обучающего набора. Наконец, обнаружив лучшие значения  c  для каждого внешнего обучающего набора, мы можем рассчитать беспристрастную точность, используя внешние наборы тестов. С помощью этой процедуры образцы, используемые для идентификации наилучшего параметра (то есть  c ), не используются для вычисления производительности классификатора, следовательно, мы имеем абсолютно беспристрастную проверку.inner_cv = KFold(n_splits=4, shuffle=True, random_state=i)
outer_cv = KFold(n_splits=4, shuffle=True, random_state=i)

# Non_nested parameter search and scoring
clf = GridSearchCV(estimator=svm, param_grid=p_grid, cv=inner_cv)
clf.fit(X_iris, y_iris)
non_nested_scores[i] = clf.best_score_

# Nested CV with parameter optimization
nested_score = cross_val_score(clf, X=X_iris, y=y_iris, cv=outer_cv)
nested_scores[i] = nested_score.mean()
< /code>
Из того, что я понимаю, код просто вычисляет оценки, используя две разные перекрестные проверки (т.е. различные разделения на обучение и набор тестирования). Оба они использовали весь набор данных.  gridcv  идентифицирует лучшие параметры с использованием одного (из двух CV), затем  cross_val_score  вычисляется со вторым CV, производительность при использовании лучших параметров. Что мне не хватает в примере?  

Подробнее здесь: [url]https://stackoverflow.com/questions/46603513/nested-cross-validation-example-on-scikit-learn[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Пример вложенной перекрестной проверки в Scikit-learn

Последнее сообщение Anonymous « 11 апр 2024, 08:57
Добавлено в форуме Python

Anonymous » 11 апр 2024, 08:57 » в форуме Python

Я пытаюсь обдумать пример вложенного и невложенного резюме в Sklearn. Я проверил несколько ответов, но пример все еще не понятен.
Насколько мне известно, вложенное резюме предназначено для использования другого подмножества данных для выбора лучших...

0 Ответы

34 Просмотры

Последнее сообщение Anonymous
11 апр 2024, 08:57
Пример вложенной перекрестной проверки в Scikit-learn

Последнее сообщение Anonymous « 28 окт 2024, 06:02
Добавлено в форуме Python

Anonymous » 28 окт 2024, 06:02 » в форуме Python

Я пытаюсь обдумать пример вложенного и невложенного резюме в Sklearn. Я проверил несколько ответов, но пример все еще не понятен.
Насколько мне известно, вложенное резюме предназначено для использования другого подмножества данных для выбора лучших...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
28 окт 2024, 06:02
Как рассчитать коэффициент перекрестной проверки Leave-One-Out q2 для модели QSAR с использованием scikit-learn SVR?

Последнее сообщение Anonymous « 25 май 2024, 19:36
Добавлено в форуме Python

Anonymous » 25 май 2024, 19:36 » в форуме Python

У меня есть обучающий набор, состоящий из 39 соединений. Вот краткий код расчета LOO q2 для SVR:
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import make_scorer, r2_score
from sklearn.svm import SVR
clf_svr = SVR(C=1.0,...

0 Ответы

45 Просмотры

Последнее сообщение Anonymous
25 май 2024, 19:36
Матрица путаницы для 10-кратной перекрестной проверки в Scikit Learn

Последнее сообщение Anonymous « 09 фев 2025, 13:50
Добавлено в форуме Python

Anonymous » 09 фев 2025, 13:50 » в форуме Python

Как я могу рассчитать матрицу путаницы в 10-кратной перекрестной проверке со Scikit-learn? Как я могу найти y_test и y_pred ?

Подробнее здесь:

0 Ответы

28 Просмотры

Последнее сообщение Anonymous
09 фев 2025, 13:50
Scikit изучает отрицательное значение оценки перекрестной проверки

Последнее сообщение Anonymous « 08 июл 2024, 20:41
Добавлено в форуме Python

Anonymous » 08 июл 2024, 20:41 » в форуме Python

Я пытался построить модель линейной регрессии, чтобы спрогнозировать цену домов, чтобы начать с машинного обучения, но столкнулся с отрицательными значениями оценки при использовании перекрестной проверки в этом коде:
from sklearn.linear_model...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
08 июл 2024, 20:41

Вернуться в «Python»