Корреляционный анализ между признаками и целевыми переменными в анализе выживаемостиPython

Программы на Python
Ответить
Anonymous
 Корреляционный анализ между признаками и целевыми переменными в анализе выживаемости

Сообщение Anonymous »

Я работаю с эталоном методов анализа выживаемости, и в моем репозитории около 43 наборов данных. В этих наборах данных присутствуют как числовые, так и категориальные ковариаты.
В некоторых наборах данных некоторые ковариаты имеют высокий уровень пропуска, а некоторые ковариаты имеют очень низкий уровень пропуска. Я хочу знать, какая функция тесно связана с моими целевыми переменными. Это поможет мне понять, приведет ли удаление этой переменной или вменение этой ковариации с помощью вменения KNN к смещению прогноза метода.
Поскольку в анализе выживаемости есть две целевые переменные: одна — статус события, а другая — время события, я не был уверен, какую из них следует использовать в качестве целевой переменной для корреляционного анализа. Но в переменной времени некоторые строки обозначают время цензурирования, поэтому я решил использовать график корреляции статуса события и функции, чтобы понять важность функции.
Я думаю создать такой код, чтобы понять анализ:

Код: Выделить всё

import pandas as pd
# features
X = df.drop(columns=["time","event"])
# correlation with event
corr_event = X.corrwith(df["event"])
print(corr_event.sort_values(ascending=False))
Кроме того, чтобы визуализировать корреляцию целевой переменной с функциями, я планирую использовать график тепловой карты, как показано ниже:

Код: Выделить всё

import seaborn as sns
import matplotlib.pyplot as plt
corr = df.corr()
plt.figure(figsize=(10,8))
sns.heatmap(corr, cmap="coolwarm")
plt.show()
Я хочу спросить, имеет ли смысл мой подход к определению важности каждой функции с помощью целевой переменной с использованием графика корреляции. Любые ваши советы/предложения будут здесь очень полезны.
Я уже искал в Интернете и нашел следующий пост, который не применим к моему случаю, поскольку я хочу визуализировать корреляцию между каждым признаком и целевой переменной.
Оценка корреляции с одной переменной цензурированных данных в R
Я также прочитал статью под названием «Анализ прогнозирования и выживаемости рака головы и шеи у пациентов». Использование данных эпигеномики и передовых методов машинного обучения» и нашел следующий рисунок:
Изображение

Я думаю, что этот тип графика необходим для моего случая. Я также прочитал следующую статью, но не пришел к какому-либо выводу.
Кластерные микроРНК hsa-miR-221-3p/hsa-miR-222-3p и их целевые гены могут быть прогностическими предикторами гепатоцеллюлярной карциномы

Подробнее здесь: https://stackoverflow.com/questions/799 ... l-analysis
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»