Я провожу исследовательский анализ данных (EDA) на наборе медицинских данных (первичный билиарный цирроз печени), чтобы выбрать признаки для многоклассовой модели классификации. Моя целевая переменная — стадия (1, 2, 3, 4).
Проблема: В моем наборе данных наблюдается серьезный
дисбаланс классов:
- Стадия 1: ~12 пациентов (меньшинство)
- Стадия 3: ~111 пациентов (Большинство)
Я пытаюсь визуализировать категориальные признаки (например, асцит: Да/Нет), чтобы увидеть, являются ли они хорошими предикторами. Я разрываюсь между двумя подходами к визуализации:
Подход А: Абсолютное количество ()[/b] Это показывает истинный размер выборки. Однако, поскольку стадия 3 очень велика, ее столбцы визуально доминируют на графике, что затрудняет сравнение распространенности симптома на разных стадиях. Столбики этапа 1 едва заметны.
Подход Б: нормализованные проценты ( с рассчитанными реквизитами)[/b] Я рассчитываю процент Асцита=Да внутри каждой стадии. Это ясно показывает, что, например, 0% пациентов на стадии 1 имеют асцит, а 20% на стадии 4.
Мое беспокойство: Это визуализирует вероятность (чего хочет модель), но скрывает тот факт, что стадия 1 опирается на очень маленький размер выборки (n=12). Полоса 100 % на этапе 1 может обозначать всего 12 человек.
Мой вопрос: Существует ли стандартная передовая практика или «золотое правило» для визуализации этого процесса в контексте выбора функций для машинного обучения? Должен ли я отдавать приоритет показу риска/вероятности (в процентах) или объема данных (в количестве)? Или для отчетности рекомендуется использовать гибридный подход?
Подробнее здесь:
https://stackoverflow.com/questions/798 ... bsolute-co