Со временем я заметил, что производительность модели падает, хотя код и логика обучения не изменились.
Я подозреваю, что причиной является отклонение качества данных – отсутствующие значения, выбросы или сдвиги распределения ключевых функций.
Я хотел бы отслеживать и оповещать, когда данные появляются. quality issues arise before retraining or predictions happen.
Код: Выделить всё
Here’s what I currently do:
import pandas as pd
from sklearn.preprocessing import StandardScaler
df = pd.read_csv("daily_data.csv")
# Basic checks
print(df.isnull().sum())
print(df.describe())
# Simple scaling
scaler = StandardScaler()
scaled = scaler.fit_transform(df.select_dtypes(float))
- Обнаружение дрейфа данных по сравнению с базовым набором данных.
- Измерение коэффициента отсутствующих значений или коэффициента выбросов.
- Автоматическое уведомление при превышении пороговых значений качества данных.
[*]Каков наилучший способ количественной оценки и мониторинга отклонения качества данных в рабочих конвейерах ML?
[*]Существуют ли инструменты с открытым исходным кодом, такие как Очевидно, искусственный интеллект, Большие надежды или Deepchecks, которые могут автоматизировать этот процесс?
[*]Как специалисты по обработке данных обычно интегрируют эти проверки в рабочие процессы MLOps (например, Airflow, MLflow или Kubeflow)?
Подробнее здесь: https://stackoverflow.com/questions/798 ... -pipelines
Мобильная версия