Оптимизация отношений «один ко многим» для больших наборов данных в прогнозировании продаж

Оптимизация отношений «один ко многим» для больших наборов данных в прогнозировании продаж ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Оптимизация отношений «один ко многим» для больших наборов данных в прогнозировании продаж

Цитата

Сообщение Anonymous » 19 окт 2024, 17:48

# Convert to Polars DataFrame
try:
df = pl.from_pandas(data)
print('Conversion to Polars DataFrame done...')
except Exception as e:
return JsonResponse({'error': f'Error converting to Polars DataFrame: {str(e)}'}, status=500)

# Ensure the necessary columns are present
if 'Store_Key' not in df.columns or 'Product_Key' not in df.columns or 'Rain' not in df.columns:
return JsonResponse({'error': 'Store_Key, Product_Key, and Rain columns are required in the data.'}, status=400)

# Extract unique store and product combinations
unique_store_product_pairs = df[['Store_Key', 'Product_Key', 'Rain']].unique()

# Loop through all store-product combinations to generate predictions
print("# Loop through all store-product combinations to generate predictions")

def predict_sales_for_combination(store, product):
# Check historical sales data for this store-product pair directly from the DataFrame
total_sales = df.filter((pl.col('Store_Key') == store) & (pl.col('Product_Key') == product)).select(pl.sum('Sales')).to_numpy().flatten()[0]

# If historical sales are zero, return zero predictions
if total_sales == 0:
return {
'store_id': store,
'product': product,
'MLC_date': pd.to_datetime(user_date),
'day1': 0,
'day2': 0,
'day3': 0,
'day4': 0,
'day5': 0,
'day6': 0,
}

# Get rain values from Day_1 to Day_7
rain_values = df.filter((pl.col('Store_Key') == store) & (pl.col('Product_Key') == product))[['Day_1', 'Day_2', 'Day_3', 'Day_4', 'Day_5', 'Day_6', 'Day_7']].to_numpy().flatten()

# Create a DataFrame for predictions
future_rain_list = []
for day in range(7): # Create predictions for the next 7 days
day_data = {
'Store_Key': store,
'Product_Key': product,
'Rain': rain_values[day], # Use specific day rain for prediction
}
future_rain_list.append(day_data)

# Create a DataFrame from the future rain list
future_rain_df = pl.DataFrame(future_rain_list)

# Make predictions
predictions = model.predict(future_rain_df.to_pandas())

# Collect all days' predicted sales in a single row per store-product pair
return {
'store_id': store,
'product': product,
'MLC_date': pd.to_datetime(user_date), # Use current user_date
'day1': predictions[0] if predictions[0] >= 1 else 0,
'day2': predictions[1] if predictions[1] >= 1 else 0,
'day3': predictions[2] if predictions[2] >= 1 else 0,
'day4': predictions[3] if predictions[3] >= 1 else 0,
'day5': predictions[4] if predictions[4] >= 1 else 0,
'day6': predictions[5] if predictions[5] >= 1 else 0,
'day7': predictions[6] if predictions[6] >= 1 else 0,
}

# Use ThreadPoolExecutor for parallel processing
with ThreadPoolExecutor(max_workers=10) as executor: # Adjust max_workers as needed
# Create a list of futures for predictions
futures = {executor.submit(predict_sales_for_combination, row[0], row[1]): row for row in unique_store_product_pairs.iter_rows()}

for future in futures:
try:
predicted_sales.append(future.result())
except Exception as e:
print(f"Error during prediction for store-product pair: {str(e)}")

Подробнее здесь: https://stackoverflow.com/questions/790 ... prediction

1729349286

Anonymous

# Convert to Polars DataFrame
try:
df = pl.from_pandas(data)
print('Conversion to Polars DataFrame done...')
except Exception as e:
return JsonResponse({'error': f'Error converting to Polars DataFrame: {str(e)}'}, status=500)

# Ensure the necessary columns are present
if 'Store_Key' not in df.columns or 'Product_Key' not in df.columns or 'Rain' not in df.columns:
return JsonResponse({'error': 'Store_Key, Product_Key, and Rain columns are required in the data.'}, status=400)

# Extract unique store and product combinations
unique_store_product_pairs = df[['Store_Key', 'Product_Key', 'Rain']].unique()

# Loop through all store-product combinations to generate predictions
print("# Loop through all store-product combinations to generate predictions")

def predict_sales_for_combination(store, product):
# Check historical sales data for this store-product pair directly from the DataFrame
total_sales = df.filter((pl.col('Store_Key') == store) & (pl.col('Product_Key') == product)).select(pl.sum('Sales')).to_numpy().flatten()[0]

# If historical sales are zero, return zero predictions
if total_sales == 0:
return {
'store_id': store,
'product': product,
'MLC_date': pd.to_datetime(user_date),
'day1': 0,
'day2': 0,
'day3': 0,
'day4': 0,
'day5': 0,
'day6': 0,
}

# Get rain values from Day_1 to Day_7
rain_values = df.filter((pl.col('Store_Key') == store) & (pl.col('Product_Key') == product))[['Day_1', 'Day_2', 'Day_3', 'Day_4', 'Day_5', 'Day_6', 'Day_7']].to_numpy().flatten()

# Create a DataFrame for predictions
future_rain_list = []
for day in range(7):  # Create predictions for the next 7 days
day_data = {
'Store_Key': store,
'Product_Key': product,
'Rain': rain_values[day],  # Use specific day rain for prediction
}
future_rain_list.append(day_data)

# Create a DataFrame from the future rain list
future_rain_df = pl.DataFrame(future_rain_list)

# Make predictions
predictions = model.predict(future_rain_df.to_pandas())

# Collect all days' predicted sales in a single row per store-product pair
return {
'store_id': store,
'product': product,
'MLC_date': pd.to_datetime(user_date),  # Use current user_date
'day1': predictions[0] if predictions[0] >= 1 else 0,
'day2': predictions[1] if predictions[1] >= 1 else 0,
'day3': predictions[2] if predictions[2] >= 1 else 0,
'day4': predictions[3] if predictions[3] >= 1 else 0,
'day5': predictions[4] if predictions[4] >= 1 else 0,
'day6': predictions[5] if predictions[5] >= 1 else 0,
'day7': predictions[6] if predictions[6] >= 1 else 0,
}

# Use ThreadPoolExecutor for parallel processing
with ThreadPoolExecutor(max_workers=10) as executor:  # Adjust max_workers as needed
# Create a list of futures for predictions
futures = {executor.submit(predict_sales_for_combination, row[0], row[1]): row for row in unique_store_product_pairs.iter_rows()}

for future in futures:
try:
predicted_sales.append(future.result())
except Exception as e:
print(f"Error during prediction for store-product pair: {str(e)}")
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79076777/optimizing-one-to-many-relationships-for-large-datasets-in-sales-prediction[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Оптимизация построения Trie во Flashtext для больших наборов данных с ключом-значением

Последнее сообщение Anonymous « 10 апр 2024, 10:44
Добавлено в форуме Python

Anonymous » 10 апр 2024, 10:44 » в форуме Python

В настоящее время я столкнулся с проблемой: мне нужно заменить большое количество слов в наборе данных. У меня около 16 миллионов пар слов «ключ-значение». Для замены я использую Flashtext, который работает хорошо. Однако проблема возникает при...

0 Ответы

30 Просмотры

Последнее сообщение Anonymous
10 апр 2024, 10:44
Оптимизация производительности алгоритма сортировки для больших целочисленных наборов данных в Java

Последнее сообщение Anonymous « 11 июл 2024, 18:05
Добавлено в форуме JAVA

Anonymous » 11 июл 2024, 18:05 » в форуме JAVA

Я реализовал на Java алгоритмы быстрой сортировки и сортировки слиянием, но они работают неэффективно при сортировке больших наборов данных целых чисел (от 1 до 100 000). Процесс сортировки занимает больше времени, чем ожидалось, особенно по мере...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
11 июл 2024, 18:05
Оптимизация Pandas GroupBy и агрегирование больших наборов данных с помощью нескольких пользовательских функций

Последнее сообщение Anonymous « 24 окт 2024, 09:16
Добавлено в форуме Python

Anonymous » 24 окт 2024, 09:16 » в форуме Python

Я работаю с большим фреймом данных Pandas ( около 30,5 миллионов строк ), где мне нужно сгруппировать данные по нескольким столбцам и применить различные пользовательские функции агрегирования. Однако производительность в настоящее время является...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
24 окт 2024, 09:16
Оптимизация Pandas GroupBy и агрегирование больших наборов данных с помощью нескольких пользовательских функций

Последнее сообщение Anonymous « 24 окт 2024, 12:25
Добавлено в форуме Python

Anonymous » 24 окт 2024, 12:25 » в форуме Python

Я работаю с большим фреймом данных Pandas ( около 30,5 миллионов строк ), где мне нужно сгруппировать данные по нескольким столбцам и применить различные пользовательские функции агрегирования. Однако производительность в настоящее время является...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
24 окт 2024, 12:25
Есть ли необходимость указывать отношение «многие ко многим» вместо «один ко многим», если для получения данных мы испол

Последнее сообщение Anonymous « 13 янв 2025, 09:33
Добавлено в форуме MySql

Anonymous » 13 янв 2025, 09:33 » в форуме MySql

Например, если продукты и категории представляют собой отношение многие ко многим, но что, если мы извлекаем только продукты с определенным категории , без получения категорий с продуктами , связанными с ними.

Подробнее здесь:

0 Ответы

28 Просмотры

Последнее сообщение Anonymous
13 янв 2025, 09:33

Вернуться в «Python»