Вменение пропущенных значений средним значением столбца в машинном обучении

Вменение пропущенных значений средним значением столбца в машинном обучении ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Вменение пропущенных значений средним значением столбца в машинном обучении

Цитата

Сообщение Anonymous » 06 окт 2024, 09:06

Я знаю, что вменение пропущенных значений — это именно то, что звучит, я говорю о вменении его средним значением столбца. Обычно я вменяю пропущенные значения перед тем, как разделить данные на обучение и тестирование, но потом я увидел этот QnA, в котором говорилось:

ВНИМАНИЕ: если вы хотите используйте это для машинного обучения/науки о данных: с точки зрения науки о данных неправильно сначала заменять NA, а затем разделить на обучение и тестирование... Вы ДОЛЖНЫ сначала разделить на обучение и тестирование, затем заменить NA на среднее значение в поезде, а затем применить эту модель предварительной обработки с сохранением состояния для тестирования, см. ответ, связанный со sklearn, ниже! — Фабиан Вернер мы можем это сделать? и как нам это сделать? есть ли разница между выполнением этого до или после разделения данных? если да, то почему? Пожалуйста, помогите мне понять, потому что я совсем запутался.

Подробнее здесь: https://stackoverflow.com/questions/603 ... e-learning

1728194775

Anonymous

Я знаю, что вменение пропущенных значений — это именно то, что звучит, я говорю о вменении его средним значением столбца. Обычно я вменяю пропущенные значения перед тем, как разделить данные на обучение и тестирование, но потом я увидел этот QnA, в котором говорилось: 


ВНИМАНИЕ: если вы хотите используйте это для машинного обучения/науки о данных: с точки зрения науки о данных неправильно сначала заменять NA, а затем разделить на обучение и тестирование... Вы ДОЛЖНЫ сначала разделить на обучение и тестирование, затем заменить NA на среднее значение в поезде, а затем применить эту модель предварительной обработки с сохранением состояния для тестирования, см. ответ, связанный со sklearn, ниже! — Фабиан Вернер мы можем это сделать? и как нам это сделать? есть ли разница между выполнением этого до или после разделения данных? если да, то почему? Пожалуйста, помогите мне понять, потому что я совсем запутался. 

Подробнее здесь: [url]https://stackoverflow.com/questions/60363476/impute-missing-values-with-mean-of-column-in-machine-learning[/url]

Ответить

1 сообщение • Страница 1 из 1