Модель прогнозирования временных рядов с сбоями с XGBOOST и Dask большие наборы данных

Модель прогнозирования временных рядов с сбоями с XGBOOST и Dask большие наборы данных ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Модель прогнозирования временных рядов с сбоями с XGBOOST и Dask большие наборы данных

Цитата

Сообщение Anonymous » 31 мар 2025, 21:33

Я строю модель прогнозирования временных рядов в Python, чтобы предсказать почасовые кВт -нагрузки для разных типов клиентов в коммунальной компании. Набор данных содержит ~ 81 миллион строк, с данными по почасовой нагрузке для ~ 2300 клиентов в течение 2-4 лет. Тип клиента представлен бинарными столбцами: EV, HP, Solar и Tou. Набор данных имеет следующие переменные: < /p>

Код: Выделить всё

  - read_date: datetime64[us]
- meter: string
- kwh: float64
- city: string
- temperature: float64
- ev: int64
- solar: int64
- hp: int64
- tou: int64
- hour: int32
- day: int32
- month: int32
- year: Int64
- day_of_week: int32
- season: string
- customer_type: string
- hour_sin: float64
- hour_cos: float64
- month_sin: float64
- month_cos: float64
- day_of_week_sin: float64
- day_of_week_cos: float64
- day_sin: float64
- day_cos: float64
- is_holiday: int64
- city_reading: int64
- city_lynnfield: int64
- city_northreading: int64
- city_wilmington: int64
- season_winter: int64
- season_spring: int64
- season_summer: int64
- season_fall: int64

После очистки данных я отказался от следующих функций как из наборов обучения, так и из тестовых наборов: meter , customer_type , сезон , read_date , city , day , month , deam , day_of_week . Моя целевая переменная - почасовая нагрузка кВтч. Я попытался построить модель XGBOOST, используя DASK для распространения, но она продолжает сбой с ошибками, такими как: < /p>

Код: Выделить всё

AssertionError: error
2025-03-31 14:12:26,995 - distributed.nanny - WARNING - Restarting worker
< /code>
Я работаю над локальной машиной с 128 ГБ оперативной памяти и процессором Intel i7-14700K 3,40 ГГц. Я ищу рекомендации о том, как справиться с прогнозированием временных рядов с помощью этого большого набора данных и как избежать сбоев при использовании DASK для распространения.  Вот мой пример кода: < /p>
# Import necessary libraries
import numpy as np
import dask.dataframe as dd
import dask.array as da
import xgboost as xgb
from dask.distributed import Client
from dask.diagnostics import ProgressBar
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import warnings
import matplotlib.pyplot as plt
from tqdm import tqdm

# Load the data using Dask (efficient for large Parquet files)
some_feats_dd = dd.read_parquet("pre_ml_some_features.parquet")

# Rename DataFrame
df_processed = some_feats_dd

# Filter the data based on the read_date for training and testing
df_train = df_processed[df_processed["year"] < 2025]  # Keep rows before 2025
df_test = df_processed[df_processed["year"] == 2025]  # Keep rows from 2025 onwards

# Exclude columns and prepare features and target variables for training
exclude_cols = ["kwh", "meter", "customer_type", "season", "read_date", "city",
"day", "month", "hour", "day_of_week"]

# Prepare training features (X) and target variable (y)
X_train = df_train.drop(columns=exclude_cols)
y_train = df_train["kwh"]

# Compute total lengths and ensure exact 3 chunks
train_size = len(y_train.compute())
test_size = len(df_test)  # No need to compute, Dask can infer

# Convert y_train and y_test to Dask arrays with forced 3 chunks
y_train = da.from_array(y_train.compute(), chunks=(train_size // 3,))
y_test = da.from_array(df_test["kwh"].compute(), chunks=(test_size // 2,))

# Ensure partitions match for X_train and X_test
X_train = X_train.repartition(npartitions=3)
X_test = X_test.repartition(npartitions=3)

# Start Dask client for parallel processing
client = Client()

# Print the Dask dashboard URL
print(f"Dask dashboard is available at: {client.dashboard_link}")

# Use DaskDMatrix from xgboost.dask
dask_train_data = xgb.dask.DaskDMatrix(client, X_train, y_train)

# Set up parameters for XGBoost
params = {
'objective': 'reg:squarederror',  # Regression task
'eval_metric': 'rmse',
'tree_method': 'hist',  # Use histogram-based method for faster training
'verbosity': 1,  # Enables basic logging
}

# Initialize Dask-XGBoost model
dask_gbr = xgb.dask.DaskXGBRegressor(**params)

# Train the model using Dask (this will automatically parallelize)
with ProgressBar():  # Shows progress during training
dask_gbr.fit(dask_train_data)

Спасибо!

Подробнее здесь: https://stackoverflow.com/questions/795 ... s-crashing

1743446021

Anonymous

 Я строю модель прогнозирования временных рядов в Python, чтобы предсказать почасовые кВт -нагрузки для разных типов клиентов в коммунальной компании. Набор данных содержит ~ 81 миллион строк, с данными по почасовой нагрузке для ~ 2300 клиентов в течение 2-4 лет. Тип клиента представлен бинарными столбцами: EV, HP, Solar и Tou. Набор данных имеет следующие переменные: < /p>
[code]  - read_date: datetime64[us]
- meter: string
- kwh: float64
- city: string
- temperature: float64
- ev: int64
- solar: int64
- hp: int64
- tou: int64
- hour: int32
- day: int32
- month: int32
- year: Int64
- day_of_week: int32
- season: string
- customer_type: string
- hour_sin: float64
- hour_cos: float64
- month_sin: float64
- month_cos: float64
- day_of_week_sin: float64
- day_of_week_cos: float64
- day_sin: float64
- day_cos: float64
- is_holiday: int64
- city_reading: int64
- city_lynnfield: int64
- city_northreading: int64
- city_wilmington: int64
- season_winter: int64
- season_spring: int64
- season_summer: int64
- season_fall: int64
[/code]
После очистки данных я отказался от следующих функций как из наборов обучения, так и из тестовых наборов: meter , customer_type , сезон , read_date , city , day , month , deam , day_of_week . Моя целевая переменная - почасовая нагрузка кВтч. Я попытался построить модель XGBOOST, используя DASK для распространения, но она продолжает сбой с ошибками, такими как: < /p>
[code]AssertionError: error
2025-03-31 14:12:26,995 - distributed.nanny - WARNING - Restarting worker
< /code>
Я работаю над локальной машиной с 128 ГБ оперативной памяти и процессором Intel i7-14700K 3,40 ГГц. Я ищу рекомендации о том, как справиться с прогнозированием временных рядов с помощью этого большого набора данных и как избежать сбоев при использовании DASK для распространения.  Вот мой пример кода: < /p>
# Import necessary libraries
import numpy as np
import dask.dataframe as dd
import dask.array as da
import xgboost as xgb
from dask.distributed import Client
from dask.diagnostics import ProgressBar
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import warnings
import matplotlib.pyplot as plt
from tqdm import tqdm

# Load the data using Dask (efficient for large Parquet files)
some_feats_dd = dd.read_parquet("pre_ml_some_features.parquet")

# Rename DataFrame
df_processed = some_feats_dd

# Filter the data based on the read_date for training and testing
df_train = df_processed[df_processed["year"] < 2025]  # Keep rows before 2025
df_test = df_processed[df_processed["year"] == 2025]  # Keep rows from 2025 onwards

# Exclude columns and prepare features and target variables for training
exclude_cols = ["kwh", "meter", "customer_type", "season", "read_date", "city",
"day", "month", "hour", "day_of_week"]

# Prepare training features (X) and target variable (y)
X_train = df_train.drop(columns=exclude_cols)
y_train = df_train["kwh"]

# Compute total lengths and ensure exact 3 chunks
train_size = len(y_train.compute())
test_size = len(df_test)  # No need to compute, Dask can infer

# Convert y_train and y_test to Dask arrays with forced 3 chunks
y_train = da.from_array(y_train.compute(), chunks=(train_size // 3,))
y_test = da.from_array(df_test["kwh"].compute(), chunks=(test_size // 2,))

# Ensure partitions match for X_train and X_test
X_train = X_train.repartition(npartitions=3)
X_test = X_test.repartition(npartitions=3)

# Start Dask client for parallel processing
client = Client()

# Print the Dask dashboard URL
print(f"Dask dashboard is available at: {client.dashboard_link}")

# Use DaskDMatrix from xgboost.dask
dask_train_data = xgb.dask.DaskDMatrix(client, X_train, y_train)

# Set up parameters for XGBoost
params = {
'objective': 'reg:squarederror',  # Regression task
'eval_metric': 'rmse',
'tree_method': 'hist',  # Use histogram-based method for faster training
'verbosity': 1,  # Enables basic logging
}

# Initialize Dask-XGBoost model
dask_gbr = xgb.dask.DaskXGBRegressor(**params)

# Train the model using Dask (this will automatically parallelize)
with ProgressBar():  # Shows progress during training
dask_gbr.fit(dask_train_data)

[/code]
Спасибо!  

Подробнее здесь: [url]https://stackoverflow.com/questions/79547006/time-series-forecasting-model-with-xgboost-and-dask-large-datasets-crashing[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Модель прогнозирования временных рядов с сбоями с XGBOOST и Dask большие наборы данных

Последнее сообщение Anonymous « 31 мар 2025, 23:19
Добавлено в форуме Python

Anonymous » 31 мар 2025, 23:19 » в форуме Python

Я строю модель прогнозирования временных рядов в Python, чтобы предсказать почасовые кВт -нагрузки для разных типов клиентов в коммунальной компании. Набор данных содержит ~ 81 миллион строк, с данными по почасовой нагрузке для ~ 2300 клиентов в...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
31 мар 2025, 23:19
Классификация временных рядов с использованием запаздывающих данных и экзогенных переменных временных рядов для исследов

Последнее сообщение Anonymous « 26 сен 2024, 17:36
Добавлено в форуме Python

Anonymous » 26 сен 2024, 17:36 » в форуме Python

У меня есть следующий кадр данных pandas
import pandas as pd
pd.DataFrame({
'region': ,
'week': ,
'rain': ,
'clouds':
})

region week rain clouds
0 1 1 1 1
1 1 2 1 1
2 1 3 0 0
3 1 4 1 0
4 2 1 1 0
5 2 2 1 0
6 2 3 1 1
7 2 4 1 0
8 3 1 1 1
9 3 2 0 0...

0 Ответы

48 Просмотры

Последнее сообщение Anonymous
26 сен 2024, 17:36
Модель трансформатора для плато прогнозирования временных рядов – ищу предложения

Последнее сообщение Anonymous « 26 май 2024, 01:18
Добавлено в форуме Python

Anonymous » 26 май 2024, 01:18 » в форуме Python

Я немного новичок в области машинного обучения, поэтому извините, если этот вопрос является простым. Я использую простой преобразователь для данных временных рядов, чтобы прогнозировать конкретные непрерывные значения. Раньше я добивался некоторой...

0 Ответы

52 Просмотры

Последнее сообщение Anonymous
26 май 2024, 01:18
Обучите модель машинного обучения с помощью scikit Learning для прогнозирования временных рядов

Последнее сообщение Anonymous « 25 окт 2024, 00:08
Добавлено в форуме Python

Anonymous » 25 окт 2024, 00:08 » в форуме Python

Мне нужно обучить модель с помощью scikit-learn, чтобы предсказать возможное время для меньшего количества людей в комнате.
Вот как выглядит мой набор данных:
Time PeopleCount
---------------------------------------------
2019-12-29 12:40:10 50...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
25 окт 2024, 00:08
Как эффективно распараллелить прогнозирование временных рядов с помощью Dask?

Последнее сообщение Anonymous « 17 окт 2024, 12:21
Добавлено в форуме Python

Anonymous » 17 окт 2024, 12:21 » в форуме Python

Я пытаюсь распараллелить прогнозирование временных рядов в Python с помощью dask. Формат данных таков, что каждый временной ряд представляет собой столбец и имеет общий индекс ежемесячных дат. У меня есть пользовательская функция прогнозирования,...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
17 окт 2024, 12:21

Вернуться в «Python»