Как отслеживать изменение качества данных с течением времени в конвейерах машинного обучения? - Цифровое Кемерово

Как отслеживать изменение качества данных с течением времени в конвейерах машинного обучения? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Как отслеживать изменение качества данных с течением времени в конвейерах машинного обучения?

Цитата

Сообщение Anonymous » 10 ноя 2025, 07:29

Я создаю конвейер машинного обучения, который ежедневно обрабатывает входящие данные.

Со временем я заметил, что производительность модели падает, хотя код и логика обучения не изменились.

Я подозреваю, что причиной является отклонение качества данных – отсутствующие значения, выбросы или сдвиги распределения ключевых функций.
Я хотел бы отслеживать и оповещать, когда данные появляются. quality issues arise before retraining or predictions happen.

Код: Выделить всё

Here’s what I currently do:

import pandas as pd
from sklearn.preprocessing import StandardScaler

df = pd.read_csv("daily_data.csv")

# Basic checks
print(df.isnull().sum())
print(df.describe())

# Simple scaling
scaler = StandardScaler()
scaled = scaler.fit_transform(df.select_dtypes(float))

Это дает мне сводную статистику, но я хочу реализовать что-то более автоматическое и постоянное, например:

Обнаружение дрейфа данных по сравнению с базовым набором данных.
Измерение коэффициента отсутствующих значений или коэффициента выбросов.
Автоматическое уведомление при превышении пороговых значений качества данных.

Мои вопросы:

[*]Каков наилучший способ количественной оценки и мониторинга отклонения качества данных в рабочих конвейерах ML?

[*]Существуют ли инструменты с открытым исходным кодом, такие как Очевидно, искусственный интеллект, Большие надежды или Deepchecks, которые могут автоматизировать этот процесс?

[*]Как специалисты по обработке данных обычно интегрируют эти проверки в рабочие процессы MLOps (например, Airflow, MLflow или Kubeflow)?

Подробнее здесь: https://stackoverflow.com/questions/798 ... -pipelines

1762748952

Anonymous

Я создаю конвейер машинного обучения, который ежедневно обрабатывает входящие данные.

Со временем я заметил, что [b]производительность модели падает[/b], хотя код и логика обучения не изменились.

Я подозреваю, что причиной является [b]отклонение качества данных[/b] – отсутствующие значения, выбросы или сдвиги распределения ключевых функций.
Я хотел бы [b]отслеживать и оповещать[/b], когда данные появляются. quality issues arise before retraining or predictions happen.
[code]Here’s what I currently do:

import pandas as pd
from sklearn.preprocessing import StandardScaler

df = pd.read_csv("daily_data.csv")

# Basic checks
print(df.isnull().sum())
print(df.describe())

# Simple scaling
scaler = StandardScaler()
scaled = scaler.fit_transform(df.select_dtypes(float))
[/code]
Это дает мне сводную статистику, но я хочу реализовать что-то более [b]автоматическое и постоянное[/b], например:
[list]
[*]Обнаружение [b]дрейфа данных[/b] по сравнению с базовым набором данных.

[*]Измерение [b]коэффициента отсутствующих значений или коэффициента выбросов[/b].

[*]Автоматическое [b]уведомление[/b] при превышении пороговых значений качества данных.

[/list]
[b]Мои вопросы:[/b]

[*]Каков наилучший способ [b]количественной оценки и мониторинга отклонения качества данных[/b] в рабочих конвейерах ML?

[*]Существуют ли инструменты с открытым исходным кодом, такие как [b]Очевидно, искусственный интеллект[/b], [b]Большие надежды[/b] или [b]Deepchecks[/b], которые могут автоматизировать этот процесс?

[*]Как специалисты по обработке данных обычно интегрируют эти проверки в [b]рабочие процессы MLOps[/b] (например, Airflow, MLflow или Kubeflow)?

 

Подробнее здесь: [url]https://stackoverflow.com/questions/79815191/how-to-monitor-data-quality-drift-over-time-in-machine-learning-pipelines[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»