Как отслеживать изменение качества данных с течением времени в конвейерах машинного обучения? [закрыто]Python

Программы на Python
Ответить
Anonymous
 Как отслеживать изменение качества данных с течением времени в конвейерах машинного обучения? [закрыто]

Сообщение Anonymous »

Я создаю конвейер машинного обучения, который ежедневно обрабатывает входящие данные.

Со временем я заметил, что производительность модели падает, хотя код и логика обучения не изменились.

Я подозреваю, что причиной является отклонение качества данных – отсутствующие значения, выбросы или сдвиги распределения ключевых функций.
Я хотел бы отслеживать и оповещать, когда данные появляются. проблемы с качеством возникают до того, как произойдет переобучение или прогнозирование.
Вот чем я сейчас занимаюсь:

Код: Выделить всё

import pandas as pd
from sklearn.preprocessing import StandardScaler

df = pd.read_csv("daily_data.csv")

# Basic checks
print(df.isnull().sum())
print(df.describe())

# Simple scaling
scaler = StandardScaler()
scaled = scaler.fit_transform(df.select_dtypes(float))
Это дает мне сводную статистику, но я хочу реализовать что-то более автоматическое и постоянное, например:
  • Обнаружение дрейфа данных по сравнению с базовым набором данных.
  • Измерение коэффициента отсутствующих значений или коэффициента выбросов.
  • Автоматическое уведомление при превышении пороговых значений качества данных.
Мои вопросы:

[*]Каков наилучший способ количественной оценки и мониторинга отклонения качества данных в рабочих конвейерах ML?

[*]Существуют ли инструменты с открытым исходным кодом, такие как Очевидно, искусственный интеллект, Большие надежды или Deepchecks, которые могут автоматизировать этот процесс?

[*]Как специалисты по обработке данных обычно интегрируют эти проверки в рабочие процессы MLOps (например, Airflow, MLflow или Kubeflow)?



Подробнее здесь: https://stackoverflow.com/questions/798 ... -pipelines
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»