Как мне спроектировать конвейер данных Python для обнаружения аномальных изменений спроса на продукцию в наборе данных оPython

Программы на Python
Ответить
Anonymous
 Как мне спроектировать конвейер данных Python для обнаружения аномальных изменений спроса на продукцию в наборе данных о

Сообщение Anonymous »

Предположим, у меня есть данные о продажах на уровне заказов со следующими столбцами:

Код: Выделить всё

order_date
product_id
product_name
category
quantity
unit_price
customer_id
Моя цель — выявить продукты, спрос на которые со временем меняется аномально. Например, если продукт обычно продается 5–10 единиц в неделю, но внезапно за одну неделю продается 80 единиц, я хочу, чтобы Python пометил это как возможный аномальный всплеск спроса.
Вот упрощенный пример набора данных:

Код: Выделить всё

import pandas as pd

df = pd.DataFrame({
"order_date": [
"2024-01-01", "2024-01-03", "2024-01-10", "2024-01-17",
"2024-01-24", "2024-01-31", "2024-02-07", "2024-02-14"
],
"product_id": [101, 101, 101, 101, 101, 101, 101, 101],
"product_name": ["digital multimeter"] * 8,
"category": ["measurement tools"] * 8,
"quantity": [6, 8, 7, 9, 6, 10, 85, 8],
"unit_price": [120] * 8,
"customer_id": [1, 2, 3, 4, 5, 6, 7, 8]
})

df["order_date"] = pd.to_datetime(df["order_date"])
Я рассматриваю следующий подход:
  • Совокупное количество по продуктам и неделям.
  • Рассчитайте скользящее среднее и скользящее стандартное отклонение для каждого продукта.
  • Отметьте неделю продукта как ненормальную, если еженедельное количество намного превышает его историческое скользящее среднее значение.
Например, я пробовал что-то вроде этого:

Код: Выделить всё

weekly = (
df.groupby(["product_id", pd.Grouper(key="order_date", freq="W")])["quantity"]
.sum()
.reset_index()
)

weekly["rolling_mean"] = (
weekly.groupby("product_id")["quantity"]
.rolling(window=4)
.mean()
.reset_index(level=0, drop=True)
)

weekly["rolling_std"] = (
weekly.groupby("product_id")["quantity"]
.rolling(window=4)
.std()
.reset_index(level=0, drop=True)
)

weekly["is_abnormal"] = (
weekly["quantity"] > weekly["rolling_mean"] + 2 * weekly["rolling_std"]
)

print(weekly)
Однако я не уверен, является ли это надежным способом обнаружения аномальных изменений спроса в реальных условиях бизнеса.
Мои вопросы:
  • Является ли использование скользящего среднего и скользящего стандартного отклонения разумным методом для такого рода обнаружения аномалий спроса?
  • Как мне следует обращаться с продуктами с очень небольшим количеством исторических данных?
  • Должен ли я сравнивать продукты только с их собственными историческими продажами или также сравнивать их с другими продуктами в той же категории?
  • Существует ли лучший подход на основе Python для решения этой проблемы с использованием панд или обычных методов машинного обучения?
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»