Создайте Dataframe с 1000 элементами, идеально сбалансированными между классом 1 и 0 (положительным и отрицательным);
Определите соотношение примеров, которые должны войти в разделы обучения, проверки и тестирования. Мне нужно 800 примеров в обучающем разбиении, по 100 примеров в каждом из двух других.
Вычислите размеры трех разделов и распечатайте их значения.
Выполните первое разбиение, чтобы получить тестовый набор, стратифицированный по метке.
Выведите статистику меток первого разбиения. Два раздела по-прежнему сбалансированы.
Выполните второе разделение на обучение и проверку, стратифицированное по метке.
Выберите примеры
Распечатайте статистику этикетки.
Как видите, второе разделение на шаге 6 не дает сбалансированного разделения (статистика распечатывается на шаге 8). После первого разделения примеры (выходные данные на шаге 5) по-прежнему сбалансированы, и можно было бы выполнить второе разделение, сохраняя идеальный баланс классов.
Что я делаю неправильно?
* Step 8. Final split train: label 0.0 404 1.0 396 Name: count, dtype: int64 val: label 1.0 54 0.0 46 Name: count, dtype: int64 test: label 1.0 50 0.0 50 Name: count, dtype: int64 [/code] [list] [*]Создайте Dataframe с 1000 элементами, идеально сбалансированными между классом 1 и 0 (положительным и отрицательным); [*]Определите соотношение примеров, которые должны войти в разделы обучения, проверки и тестирования. Мне нужно 800 примеров в обучающем разбиении, по 100 примеров в каждом из двух других. [*]Вычислите размеры трех разделов и распечатайте их значения. [*]Выполните первое разбиение, чтобы получить тестовый набор, стратифицированный по метке. [*]Выведите статистику меток первого разбиения. Два раздела по-прежнему сбалансированы. [*]Выполните второе разделение на обучение и проверку, стратифицированное по метке. [*]Выберите примеры [*]Распечатайте статистику этикетки. [/list] Как видите, второе разделение на шаге 6 не дает сбалансированного разделения (статистика распечатывается на шаге 8). После первого разделения примеры (выходные данные на шаге 5) по-прежнему сбалансированы, и можно было бы выполнить второе разделение, сохраняя идеальный баланс классов. Что я делаю неправильно?