Как я могу обнаружить и устранить проблемы с плохим качеством данных в большом наборе данных перед обучением модели машиPython

Программы на Python
Ответить
Anonymous
 Как я могу обнаружить и устранить проблемы с плохим качеством данных в большом наборе данных перед обучением модели маши

Сообщение Anonymous »

Я работаю над проектом по науке о данных, в котором обучаю модель классификации с использованием большого набора данных (около 5 миллионов строк).
Во время оценки модели я заметил противоречивые результаты и понял, что мой набор данных содержит пропущенные значения, повторяющиеся записи и выбросы.
Я хочу реализовать систематический подход для выявления и очистки некачественных данных, прежде чем это повлияет на производительность моей модели.
Вот что я попробовал далеко:

Код: Выделить всё

import pandas as pd

df = pd.read_csv("data.csv")

# Check for missing values
print(df.isnull().sum())

# Remove duplicates
df = df.drop_duplicates()

# Simple outlier detection
q1 = df['feature'].quantile(0.25)
q3 = df['feature'].quantile(0.75)
iqr = q3 - q1
filtered_df = df[(df['feature'] >= q1 - 1.5 * iqr) & (df['feature'] 

Подробнее здесь: [url]https://stackoverflow.com/questions/79807538/how-can-i-detect-and-handle-poor-data-quality-issues-in-a-large-dataset-before-t[/url]
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»