Визуализация категориальных признаков с серьезным дисбалансом классов для машинного обучения: абсолютные значения или ноPython

Программы на Python
Ответить
Anonymous
 Визуализация категориальных признаков с серьезным дисбалансом классов для машинного обучения: абсолютные значения или но

Сообщение Anonymous »

Я провожу исследовательский анализ данных (EDA) на наборе медицинских данных (первичный билиарный цирроз печени), чтобы выбрать признаки для многоклассовой модели классификации. Моя целевая переменная — стадия (1, 2, 3, 4).
Проблема: В моем наборе данных наблюдается серьезный дисбаланс классов:
  • Стадия 1: ~12 пациентов (меньшинство)
  • Стадия 3: ~111 пациентов (Большинство)
Я пытаюсь визуализировать категориальные признаки (например, асцит: Да/Нет), чтобы увидеть, являются ли они хорошими предикторами. Я разрываюсь между двумя подходами к визуализации:
Подход А: Абсолютное количество (

Код: Выделить всё

sns.countplot
)[/b] Это показывает истинный размер выборки. Однако, поскольку стадия 3 очень велика, ее столбцы визуально доминируют на графике, что затрудняет сравнение распространенности симптома на разных стадиях. Столбики этапа 1 едва заметны.
Подход Б: нормализованные проценты (

Код: Выделить всё

sns.barplot
с рассчитанными реквизитами)[/b] Я рассчитываю процент Асцита=Да внутри каждой стадии. Это ясно показывает, что, например, 0% пациентов на стадии 1 имеют асцит, а 20% на стадии 4. Мое беспокойство: Это визуализирует вероятность (чего хочет модель), но скрывает тот факт, что стадия 1 опирается на очень маленький размер выборки (n=12). Полоса 100 % на этапе 1 может обозначать всего 12 человек.
Мой вопрос: Существует ли стандартная передовая практика или «золотое правило» для визуализации этого процесса в контексте выбора функций для машинного обучения? Должен ли я отдавать приоритет показу риска/вероятности (в процентах) или объема данных (в количестве)? Или для отчетности рекомендуется использовать гибридный подход?

Подробнее здесь: https://stackoverflow.com/questions/798 ... bsolute-co
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»