В некоторых наборах данных некоторые ковариаты имеют высокий уровень пропуска, а некоторые ковариаты имеют очень низкий уровень пропуска. Я хочу знать, какая функция тесно связана с моими целевыми переменными. Это поможет мне понять, приведет ли удаление этой переменной или вменение этой ковариации с помощью вменения KNN к смещению прогноза метода.
Поскольку в анализе выживаемости есть две целевые переменные: одна — статус события, а другая — время события, я не был уверен, какую из них следует использовать в качестве целевой переменной для корреляционного анализа. Но в переменной времени некоторые строки обозначают время цензурирования, поэтому я решил использовать график корреляции статуса события и функции, чтобы понять важность функции.
Я думаю создать такой код, чтобы понять анализ:
Код: Выделить всё
import pandas as pd
# features
X = df.drop(columns=["time","event"])
# correlation with event
corr_event = X.corrwith(df["event"])
print(corr_event.sort_values(ascending=False))
Код: Выделить всё
import seaborn as sns
import matplotlib.pyplot as plt
corr = df.corr()
plt.figure(figsize=(10,8))
sns.heatmap(corr, cmap="coolwarm")
plt.show()
Я уже искал в Интернете и нашел следующий пост, который не применим к моему случаю, поскольку я хочу визуализировать корреляцию между каждым признаком и целевой переменной.
Оценка корреляции с одной переменной цензурированных данных в R
Я также прочитал статью под названием «Анализ прогнозирования и выживаемости рака головы и шеи у пациентов». Использование данных эпигеномики и передовых методов машинного обучения» и нашел следующий рисунок:

Я думаю, что этот тип графика необходим для моего случая. Я также прочитал следующую статью, но не пришел к какому-либо выводу.
Кластерные микроРНК hsa-miR-221-3p/hsa-miR-222-3p и их целевые гены могут быть прогностическими предикторами гепатоцеллюлярной карциномы
Подробнее здесь: https://stackoverflow.com/questions/799 ... l-analysis
Мобильная версия