Пример вложенной перекрестной проверки в Scikit-learn

Пример вложенной перекрестной проверки в Scikit-learn ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Пример вложенной перекрестной проверки в Scikit-learn

Цитата

Сообщение Anonymous » 28 окт 2024, 06:02

Я пытаюсь обдумать пример вложенного и невложенного резюме в Sklearn. Я проверил несколько ответов, но пример все еще не понятен.
Насколько мне известно, вложенное резюме предназначено для использования другого подмножества данных для выбора лучших параметров классификатора (например, C в SVM) и проверки его производительности. . Таким образом, из набора данных X внешнее 10-кратное CV (для простоты n=10) создается 10 обучающих наборов и 10 тестовых наборов:

Код: Выделить всё

(Tr0, Te0),..., (Tr0, Te9)

Затем внутренний 10-CV разбивает КАЖДЫЙ внешний обучающий набор на 10 обучающих и 10 тестовых наборов:

Код: Выделить всё

From Tr0: (Tr0_0,Te_0_0), ... , (Tr0_9,Te0_9)
From Tr9: (Tr9_0,Te_9_0), ... , (Tr9_9,Te9_9)

Теперь, используя внутренний CV, мы можем найти лучшие значения C для каждого внешнего тренировочного набора. Это делается путем проверки всех возможных значений C с помощью внутреннего CV. Значение, обеспечивающее максимальную производительность (например, точность), выбирается для этого конкретного внешнего тренировочного набора. Наконец, обнаружив лучшие значения C для каждого внешнего обучающего набора, мы можем вычислить несмещенную точность, используя внешние тестовые наборы. При использовании этой процедуры выборки, используемые для определения лучшего параметра (т. е. C), не используются для расчета производительности классификатора, поэтому мы получаем абсолютно беспристрастную проверку.
Пример, представленный на странице Sklearn:

Код: Выделить всё

inner_cv = KFold(n_splits=4, shuffle=True, random_state=i)
outer_cv = KFold(n_splits=4, shuffle=True, random_state=i)

# Non_nested parameter search and scoring
clf = GridSearchCV(estimator=svm, param_grid=p_grid, cv=inner_cv)
clf.fit(X_iris, y_iris)
non_nested_scores[i] = clf.best_score_

# Nested CV with parameter optimization
nested_score = cross_val_score(clf, X=X_iris, y=y_iris, cv=outer_cv)
nested_scores[i] = nested_score.mean()

Насколько я понимаю, код просто вычисляет оценки, используя две разные перекрестные проверки (т. е. разные разделения на обучающий и тестовый наборы). Оба они использовали весь набор данных. GridCV определяет лучшие параметры, используя один (из двух CV), затем cross_val_score вычисляет с помощью второго CV производительность при использовании лучших параметров.
Неправильно ли я интерпретирую вложенное резюме? Чего мне не хватает в примере?

Подробнее здесь: https://stackoverflow.com/questions/466 ... ikit-learn

1730084570

Anonymous

Я пытаюсь обдумать пример вложенного и невложенного резюме в Sklearn. Я проверил несколько ответов, но пример все еще не понятен.
Насколько мне известно, вложенное резюме предназначено для использования другого подмножества данных для выбора лучших параметров классификатора (например, C в SVM) и проверки его производительности. . Таким образом, из набора данных X [b]внешнее[/b] 10-кратное CV (для простоты n=10) создается 10 обучающих наборов и 10 тестовых наборов:
[code](Tr0, Te0),..., (Tr0, Te9)
[/code]
Затем [b]внутренний[/b] 10-CV разбивает [b]КАЖДЫЙ[/b] внешний обучающий набор на 10 обучающих и 10 тестовых наборов:[code]From Tr0: (Tr0_0,Te_0_0), ... , (Tr0_9,Te0_9)
From Tr9: (Tr9_0,Te_9_0), ... , (Tr9_9,Te9_9)
[/code]
Теперь, используя внутренний CV, мы можем найти лучшие значения C для каждого внешнего тренировочного набора. Это делается путем проверки всех возможных значений C с помощью внутреннего CV. Значение, обеспечивающее максимальную производительность (например, точность), выбирается для этого конкретного внешнего тренировочного набора. Наконец, обнаружив лучшие значения C для каждого внешнего обучающего набора, мы можем вычислить несмещенную точность, используя внешние тестовые наборы. При использовании этой процедуры выборки, используемые для определения лучшего параметра (т. е. C), не используются для расчета производительности классификатора, поэтому мы получаем абсолютно беспристрастную проверку.
Пример, представленный на странице Sklearn:
[code]inner_cv = KFold(n_splits=4, shuffle=True, random_state=i)
outer_cv = KFold(n_splits=4, shuffle=True, random_state=i)

# Non_nested parameter search and scoring
clf = GridSearchCV(estimator=svm, param_grid=p_grid, cv=inner_cv)
clf.fit(X_iris, y_iris)
non_nested_scores[i] = clf.best_score_

# Nested CV with parameter optimization
nested_score = cross_val_score(clf, X=X_iris, y=y_iris, cv=outer_cv)
nested_scores[i] = nested_score.mean()
[/code]
Насколько я понимаю, код просто вычисляет оценки, используя две разные перекрестные проверки (т. е. разные разделения на обучающий и тестовый наборы). Оба они использовали весь набор данных. GridCV определяет лучшие параметры, используя один (из двух CV), затем cross_val_score вычисляет с помощью второго CV производительность при использовании лучших параметров.
Неправильно ли я интерпретирую вложенное резюме? Чего мне не хватает в примере? 

Подробнее здесь: [url]https://stackoverflow.com/questions/46603513/nested-cross-validation-example-on-scikit-learn[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Пример вложенной перекрестной проверки в Scikit-learn

Последнее сообщение Anonymous « 11 апр 2024, 08:57
Добавлено в форуме Python

Anonymous » 11 апр 2024, 08:57 » в форуме Python

Я пытаюсь обдумать пример вложенного и невложенного резюме в Sklearn. Я проверил несколько ответов, но пример все еще не понятен.
Насколько мне известно, вложенное резюме предназначено для использования другого подмножества данных для выбора лучших...

0 Ответы

34 Просмотры

Последнее сообщение Anonymous
11 апр 2024, 08:57
Вложенный пример перекрестной проверки на Scikit-learn

Последнее сообщение Anonymous « 28 июн 2025, 16:02
Добавлено в форуме Python

Anonymous » 28 июн 2025, 16:02 » в форуме Python

Я пытаюсь разобраться с примером вложенного и не вложенного резюме в Sklearn. Я проверил несколько ответов, но я все еще запутался в примере. Следовательно, из набора данных x, Внешний 10-кратный CV (для простоты n = 10) создает 10 учебных наборов и...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
28 июн 2025, 16:02
Как рассчитать коэффициент перекрестной проверки Leave-One-Out q2 для модели QSAR с использованием scikit-learn SVR?

Последнее сообщение Anonymous « 25 май 2024, 19:36
Добавлено в форуме Python

Anonymous » 25 май 2024, 19:36 » в форуме Python

У меня есть обучающий набор, состоящий из 39 соединений. Вот краткий код расчета LOO q2 для SVR:
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import make_scorer, r2_score
from sklearn.svm import SVR
clf_svr = SVR(C=1.0,...

0 Ответы

46 Просмотры

Последнее сообщение Anonymous
25 май 2024, 19:36
Матрица путаницы для 10-кратной перекрестной проверки в Scikit Learn

Последнее сообщение Anonymous « 09 фев 2025, 13:50
Добавлено в форуме Python

Anonymous » 09 фев 2025, 13:50 » в форуме Python

Как я могу рассчитать матрицу путаницы в 10-кратной перекрестной проверке со Scikit-learn? Как я могу найти y_test и y_pred ?

Подробнее здесь:

0 Ответы

28 Просмотры

Последнее сообщение Anonymous
09 фев 2025, 13:50
Применение SMOTE-Tomek для вложенной перекрестной проверки данных временных рядов

Последнее сообщение Anonymous « 05 янв 2025, 06:06
Добавлено в форуме Python

Anonymous » 05 янв 2025, 06:06 » в форуме Python

Я хочу выполнить вложенную перекрестную проверку для задачи классификации, гарантируя, что модель не будет подвергаться воздействию будущих данных. Поскольку данные представляют собой временные ряды, я планирую использовать стратегию разделения с...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
05 янв 2025, 06:06

Вернуться в «Python»