Для проблемы, мне нужно ограничить DataFrame двумя столбцами, отфильтровать их по желаемым значениям, отбросьте NAN, чтобы можно было найти корреляцию. Я знаю, что ряды должны быть определенной суммой, и я получаю больше строк, тогда я должен < /p>
Numpy и Pandas Imported < /p>
df = pd.read_csv("assets/NISPUF17.csv")
#restricting to wanted columns
wantedcolumns = df[["HAD_CPOX","P_NUMVRC"]]
#filter columns
had_cpox = wantedcolumns[(wantedcolumns["HAD_CPOX"] >=1)&(wantedcolumns["HAD_CPOX"]=1.0]
#drop missing values
wantedcolumns.dropna()
#print number of rows
print(len(wantedcolumns))
corr, pval=stats.pearsonr(column 1, column 2)
< /code>
Что я попробовал:
WanteColumns [HAD_CPOX & CPOX_VAX] - TRACEBACK < /p>
Подробнее здесь: https://stackoverflow.com/questions/725 ... drop-nan-t
Как ограничить DataFrame на два столбца, отфильтровать оба столбца, а затем отбросить NAN, чтобы получить корреляцию? ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение