Визуализация категориальных признаков с серьезным дисбалансом классов для машинного обучения: абсолютные значения или но

Визуализация категориальных признаков с серьезным дисбалансом классов для машинного обучения: абсолютные значения или но ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Визуализация категориальных признаков с серьезным дисбалансом классов для машинного обучения: абсолютные значения или но

Цитата

Сообщение Anonymous » 20 янв 2026, 00:53

Я провожу исследовательский анализ данных (EDA) на наборе медицинских данных (первичный билиарный цирроз печени), чтобы выбрать признаки для многоклассовой модели классификации. Моя целевая переменная — стадия (1, 2, 3, 4).
Проблема: В моем наборе данных наблюдается серьезный дисбаланс классов:

Стадия 1: ~12 пациентов (меньшинство)
Стадия 3: ~111 пациентов (Большинство)

Я пытаюсь визуализировать категориальные признаки (например, асцит: Да/Нет), чтобы увидеть, являются ли они хорошими предикторами. Я разрываюсь между двумя подходами к визуализации:
Подход А: Абсолютное количество (

Код: Выделить всё

sns.countplot

)[/b] Это показывает истинный размер выборки. Однако, поскольку стадия 3 очень велика, ее столбцы визуально доминируют на графике, что затрудняет сравнение распространенности симптома на разных стадиях. Столбики этапа 1 едва заметны.
Подход Б: нормализованные проценты (

Код: Выделить всё

sns.barplot

с рассчитанными реквизитами)[/b] Я рассчитываю процент Асцита=Да внутри каждой стадии. Это ясно показывает, что, например, 0% пациентов на стадии 1 имеют асцит, а 20% на стадии 4. Мое беспокойство: Это визуализирует вероятность (чего хочет модель), но скрывает тот факт, что стадия 1 опирается на очень маленький размер выборки (n=12). Полоса 100 % на этапе 1 может обозначать всего 12 человек.
Мой вопрос: Существует ли стандартная передовая практика или «золотое правило» для визуализации этого процесса в контексте выбора функций для машинного обучения? Должен ли я отдавать приоритет показу риска/вероятности (в процентах) или объема данных (в количестве)? Или для отчетности рекомендуется использовать гибридный подход?

Подробнее здесь: https://stackoverflow.com/questions/798 ... bsolute-co

1768859603

Anonymous

Я провожу исследовательский анализ данных (EDA) на наборе медицинских данных (первичный билиарный цирроз печени), чтобы выбрать признаки для многоклассовой модели классификации. Моя целевая переменная — стадия (1, 2, 3, 4).
[b]Проблема:[/b] В моем наборе данных наблюдается серьезный [b]дисбаланс классов[/b]:
[list]
[*][b]Стадия 1:[/b] ~12 пациентов (меньшинство)

[*][b]Стадия 3:[/b] ~111 пациентов (Большинство)

[/list]
Я пытаюсь визуализировать категориальные признаки (например, асцит: Да/Нет), чтобы увидеть, являются ли они хорошими предикторами. Я разрываюсь между двумя подходами к визуализации:
[b]Подход А: Абсолютное количество ([code]sns.countplot[/code])[/b] Это показывает истинный размер выборки. Однако, поскольку стадия 3 очень велика, ее столбцы визуально доминируют на графике, что затрудняет сравнение распространенности симптома на разных стадиях. Столбики этапа 1 едва заметны.
[b]Подход Б: нормализованные проценты ([code]sns.barplot[/code] с рассчитанными реквизитами)[/b] Я рассчитываю процент Асцита=Да внутри каждой стадии. Это ясно показывает, что, например, 0% пациентов на стадии 1 имеют асцит, а 20% на стадии 4. [b]Мое беспокойство:[/b] Это визуализирует вероятность (чего хочет модель), но скрывает тот факт, что стадия 1 опирается на очень маленький размер выборки (n=12). Полоса 100 % на этапе 1 может обозначать всего 12 человек.
[b]Мой вопрос:[/b] Существует ли стандартная передовая практика или «золотое правило» для визуализации этого процесса в контексте выбора функций для машинного обучения? Должен ли я отдавать приоритет показу риска/вероятности (в процентах) или объема данных (в количестве)? Или для отчетности рекомендуется использовать гибридный подход? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79866222/visualizing-categorical-features-with-severe-class-imbalance-for-ml-absolute-co[/url]