Если значение меньше Q1 -S или больше, чем Q3+S, то это выброс.
Числовые столбцы этой базы данных:
Код: Выделить всё
col_numeriche = ['age', 'trestbps', 'chol', 'restecg', 'thalach', 'oldpeak', 'ca']
Поэтому я создал это функция:
Код: Выделить всё
def remove_outliers(df, colnames):
for colname in colnames:
n = df[colname]
q1 = n.quantile(0.25)
q3 = n.quantile(0.75)
S = 1.5 * (q3 - q1)
lower_bound = q1 - S
upper_bound = q3 + S
df = df[(n >= lower_bound) & (n
Подробнее здесь: [url]https://stackoverflow.com/questions/79305534/function-to-remove-outliers-in-multiple-columns-iqr-rule-pandas[/url]