Как улучшить прогноз осадков, когда большинство значений в наборе данных равны нулю? - Цифровое Кемерово

Как улучшить прогноз осадков, когда большинство значений в наборе данных равны нулю? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как улучшить прогноз осадков, когда большинство значений в наборе данных равны нулю?

Цитата

Сообщение Anonymous » 02 май 2025, 18:15

Я работаю над проектом прогнозирования осадков с использованием моделей временных рядов, таких как LSTM, Arima и Prophet в Google Colab. Набор данных, который я использую, содержит ежедневные значения осадков, но подавляющее большинство записей равно нулю - поскольку в большинстве дней не дождь. Например: < /p>
LSTM имеет тенденцию к постоянным или почти нулевым прогнозам, вероятно, переосмысление часто нулевых значений. Осадки. Существуют ли рекомендуемые методы для обработки нулевого характера таких данных в прогнозировании временных рядов? < /P>
Любые советы или общий опыт будут оценены. Заранее спасибо!

Код: Выделить всё

 import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.style.use('fivethirtyeight')
from sklearn.metrics import mean_squared_error
import seaborn as sns

from statsmodels.tsa.arima_model import ARIMA
from statsmodels.tsa.stattools import adfuller, acf, pacf
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf

weather_df = pd.read_csv('sample_data/preprocessed.csv', parse_dates=['DATE'], index_col='DATE')
weather_df.head()

def list_and_visualize_missing_data(dataset):
# Listing total null items and its percent with respect to all nulls
total = dataset.isnull().sum().sort_values(ascending=False)
percent = ((dataset.isnull().sum())/(dataset.isnull().count())).sort_values(ascending=False)
percent = percent*100

print('Count of missing data : \n',total)
print('% of missing data : \n',percent)

list_and_visualize_missing_data(weather_df)

#check trend and seasonality of weather data
weather_df.plot(subplots=True, figsize=(20,12))
#detailed view of 2015 year
weather_df['2015':'2016'].resample('D')
weather_df['2015':'2016'].fillna(weather_df['2015':'2016']['PRECTOTCORR'].mean())
weather_df['2015':'2016'].plot(subplots=True, figsize=(20,12))

print(weather_df)

weather_df.index = pd.to_datetime(weather_df.index, format='%Y-%m-%d')  # İndeks olarak tarih formatına dönüştür

precip = weather_df[['PRECTOTCORR']]

# Tarih indeksine göre sıralı olduğundan emin ol
precip = precip.sort_index()

# Veri setinin uzunluğunu al
n = len(precip)
train_size = int(n * 0.8)

# %80 eğitim, %20 test verisi olarak ayır
train_df = precip.iloc[:train_size]
test_df = precip.iloc[train_size:]

train_df.describe()
print(train_df)

# check rolling mean and rolling standard deviation
def plot_rolling_mean_std(ts):
rolling_mean = ts.rolling(12).mean()
rolling_std = ts.rolling(12).std()
plt.figure(figsize=(22,10))

plt.plot(ts, label='Actual Mean')
plt.plot(rolling_mean, label='Rolling Mean')
plt.plot(rolling_std, label = 'Rolling Std')
plt.xlabel("Date")
plt.ylabel("Mean Temperature")
plt.title('Rolling Mean &  Rolling Standard Deviation')
plt.legend()
plt.show()

# check stationary: mean, variance(std)and adfuller test
plot_rolling_mean_std(train_df.PRECTOTCORR)

#Plot ACF and PACF
acf_lag = acf(train_df.values, nlags=20)
pacf_lag = pacf(train_df.values, nlags=20, method='ols')

plt.figure(figsize=(22,10))

plt.subplot(1,2,1)
plt.plot(acf_lag)
plt.axhline(y=0,linestyle='--',color='silver')
plt.axhline(y=-1.96/np.sqrt(len(train_df.values)),linestyle='--',color='silver')
plt.axhline(y=1.96/np.sqrt(len(train_df.values)),linestyle='--',color='silver')
plt.title("Autocorrelation Function")

plt.subplot(1,2,2)
plt.plot(pacf_lag)
plt.axhline(y=0,linestyle='--',color='silver')
plt.axhline(y=-1.96/np.sqrt(len(train_df.values)),linestyle='--',color='silver')
plt.axhline(y=1.96/np.sqrt(len(train_df.values)),linestyle='--',color='silver')
plt.title("Partial Autocorrelation Function")
plt.tight_layout()

#ARIMA model
from statsmodels.tsa.arima.model import ARIMA

print("train_df values:",train_df)
model = ARIMA(train_df.values, order=(2, 0, 2))
model_fit = model.fit()
print(model_fit.summary())

# Plot residual errors
plt.rcParams.update({'figure.figsize':(12,3), 'figure.dpi':120})
residuals = pd.DataFrame(model_fit.resid)
fig, ax = plt.subplots(1,2)
residuals.plot(title="Residuals", ax=ax[0])
residuals.plot(kind='kde', title='Density', ax=ax[1])
plt.show()

# Actual vs Fitted
fig, ax = plt.subplots(figsize=(10, 5))
plot_predict(model_fit, dynamic=False, ax=ax)

# Başlık ve etiketler
ax.set_title("Gerçek ve Tahmin Edilen Değerler (Actual vs Fitted)", fontsize=14)
ax.set_ylabel("Değer", fontsize=12)
ax.legend(["Gerçek Değer", "Tahmin"], loc="upper left")

plt.tight_layout()
plt.show()

forecast_steps = len(test_df)
forecast_index = test_df.index

# 16 dönemlik tahmin ve güven aralığı
forecast_obj = model_fit.get_forecast(steps=forecast_steps)
fc = forecast_obj.predicted_mean
conf = forecast_obj.conf_int(alpha=0.05)

# Pandas serileri oluştur
fc_series = pd.Series(fc, index=forecast_index)
lower_series = pd.Series(conf[:, 0], index=forecast_index)
upper_series = pd.Series(conf[:, 1], index=forecast_index)

# Grafik
plt.figure(figsize=(12,5), dpi=100)
plt.plot(train_df, label='Test Value')
plt.plot(test_df, label='Actual Values')
plt.plot(fc_series, label='Forecast')
plt.fill_between(lower_series.index, lower_series, upper_series, color='k', alpha=.15)
plt.title('Forecast vs Actual')
plt.legend(loc='upper left', fontsize=8)
plt.show()

# plot Testing and Forecasted data
plt.plot(test_df, label='Actual')
plt.plot(fc_series, label='Forecast', color='red')
plt.legend(loc='upper left', fontsize=8)
plt.show()

error = mean_squared_error(test_df, fc_series)
print('Test Mean Squared Error: ',error)

df_result = pd.DataFrame({
"Actual": test_df["PRECTOTCORR"],  # test_df'deki hedef sütunu yaz
"Forecast": fc_series
})
df_result.head(100)

Это ссылка на код Github, где я получаю и корректирую свою потребность:
https://github.com/niwedita17/weather-f ... sing-arima
shate shots: press> press> press> press> press> press> press> press> press> press> press> psliou alt = "Введите описание изображения здесь" src = "https://i.sstatic.net/vhzwhath.png"/>

Подробнее здесь: https://stackoverflow.com/questions/796 ... t-are-zero

Реклама

1746198924

Anonymous

 Я работаю над проектом прогнозирования осадков с использованием моделей временных рядов, таких как LSTM, Arima и Prophet в Google Colab. Набор данных, который я использую, содержит ежедневные значения осадков, но подавляющее большинство записей равно нулю - поскольку в большинстве дней не дождь. Например: < /p>
LSTM имеет тенденцию к постоянным или почти нулевым прогнозам, вероятно, переосмысление часто нулевых значений. Осадки. Существуют ли рекомендуемые методы для обработки нулевого характера таких данных в прогнозировании временных рядов? < /P>
Любые советы или общий опыт будут оценены.  Заранее спасибо![code] import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.style.use('fivethirtyeight')
from sklearn.metrics import mean_squared_error
import seaborn as sns

from statsmodels.tsa.arima_model import ARIMA
from statsmodels.tsa.stattools import adfuller, acf, pacf
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf

weather_df = pd.read_csv('sample_data/preprocessed.csv', parse_dates=['DATE'], index_col='DATE')
weather_df.head()

def list_and_visualize_missing_data(dataset):
# Listing total null items and its percent with respect to all nulls
total = dataset.isnull().sum().sort_values(ascending=False)
percent = ((dataset.isnull().sum())/(dataset.isnull().count())).sort_values(ascending=False)
percent = percent*100

print('Count of missing data : \n',total)
print('% of missing data : \n',percent)

list_and_visualize_missing_data(weather_df)

#check trend and seasonality of weather data
weather_df.plot(subplots=True, figsize=(20,12))
#detailed view of 2015 year
weather_df['2015':'2016'].resample('D')
weather_df['2015':'2016'].fillna(weather_df['2015':'2016']['PRECTOTCORR'].mean())
weather_df['2015':'2016'].plot(subplots=True, figsize=(20,12))

print(weather_df)

weather_df.index = pd.to_datetime(weather_df.index, format='%Y-%m-%d')  # İndeks olarak tarih formatına dönüştür

precip = weather_df[['PRECTOTCORR']]

# Tarih indeksine göre sıralı olduğundan emin ol
precip = precip.sort_index()

# Veri setinin uzunluğunu al
n = len(precip)
train_size = int(n * 0.8)

# %80 eğitim, %20 test verisi olarak ayır
train_df = precip.iloc[:train_size]
test_df = precip.iloc[train_size:]

train_df.describe()
print(train_df)

# check rolling mean and rolling standard deviation
def plot_rolling_mean_std(ts):
rolling_mean = ts.rolling(12).mean()
rolling_std = ts.rolling(12).std()
plt.figure(figsize=(22,10))

plt.plot(ts, label='Actual Mean')
plt.plot(rolling_mean, label='Rolling Mean')
plt.plot(rolling_std, label = 'Rolling Std')
plt.xlabel("Date")
plt.ylabel("Mean Temperature")
plt.title('Rolling Mean &  Rolling Standard Deviation')
plt.legend()
plt.show()

# check stationary: mean, variance(std)and adfuller test
plot_rolling_mean_std(train_df.PRECTOTCORR)

#Plot ACF and PACF
acf_lag = acf(train_df.values, nlags=20)
pacf_lag = pacf(train_df.values, nlags=20, method='ols')

plt.figure(figsize=(22,10))

plt.subplot(1,2,1)
plt.plot(acf_lag)
plt.axhline(y=0,linestyle='--',color='silver')
plt.axhline(y=-1.96/np.sqrt(len(train_df.values)),linestyle='--',color='silver')
plt.axhline(y=1.96/np.sqrt(len(train_df.values)),linestyle='--',color='silver')
plt.title("Autocorrelation Function")

plt.subplot(1,2,2)
plt.plot(pacf_lag)
plt.axhline(y=0,linestyle='--',color='silver')
plt.axhline(y=-1.96/np.sqrt(len(train_df.values)),linestyle='--',color='silver')
plt.axhline(y=1.96/np.sqrt(len(train_df.values)),linestyle='--',color='silver')
plt.title("Partial Autocorrelation Function")
plt.tight_layout()

#ARIMA model
from statsmodels.tsa.arima.model import ARIMA

print("train_df values:",train_df)
model = ARIMA(train_df.values, order=(2, 0, 2))
model_fit = model.fit()
print(model_fit.summary())

# Plot residual errors
plt.rcParams.update({'figure.figsize':(12,3), 'figure.dpi':120})
residuals = pd.DataFrame(model_fit.resid)
fig, ax = plt.subplots(1,2)
residuals.plot(title="Residuals", ax=ax[0])
residuals.plot(kind='kde', title='Density', ax=ax[1])
plt.show()

# Actual vs Fitted
fig, ax = plt.subplots(figsize=(10, 5))
plot_predict(model_fit, dynamic=False, ax=ax)

# Başlık ve etiketler
ax.set_title("Gerçek ve Tahmin Edilen Değerler (Actual vs Fitted)", fontsize=14)
ax.set_ylabel("Değer", fontsize=12)
ax.legend(["Gerçek Değer", "Tahmin"], loc="upper left")

plt.tight_layout()
plt.show()

forecast_steps = len(test_df)
forecast_index = test_df.index

# 16 dönemlik tahmin ve güven aralığı
forecast_obj = model_fit.get_forecast(steps=forecast_steps)
fc = forecast_obj.predicted_mean
conf = forecast_obj.conf_int(alpha=0.05)

# Pandas serileri oluştur
fc_series = pd.Series(fc, index=forecast_index)
lower_series = pd.Series(conf[:, 0], index=forecast_index)
upper_series = pd.Series(conf[:, 1], index=forecast_index)

# Grafik
plt.figure(figsize=(12,5), dpi=100)
plt.plot(train_df, label='Test Value')
plt.plot(test_df, label='Actual Values')
plt.plot(fc_series, label='Forecast')
plt.fill_between(lower_series.index, lower_series, upper_series, color='k', alpha=.15)
plt.title('Forecast vs Actual')
plt.legend(loc='upper left', fontsize=8)
plt.show()

# plot Testing and Forecasted data
plt.plot(test_df, label='Actual')
plt.plot(fc_series, label='Forecast', color='red')
plt.legend(loc='upper left', fontsize=8)
plt.show()

error = mean_squared_error(test_df, fc_series)
print('Test Mean Squared Error: ',error)

df_result = pd.DataFrame({
"Actual": test_df["PRECTOTCORR"],  # test_df'deki hedef sütunu yaz
"Forecast": fc_series
})
df_result.head(100)
[/code]
[b] Это ссылка на код Github, где я получаю и корректирую свою потребность: [/b] 
https://github.com/niwedita17/weather-forecasting-using-arima
shate shots:  press> press> press> press> press> press> press> press> press> press> press> psliou alt = "Введите описание изображения здесь" src = "https://i.sstatic.net/vhzwhath.png"/>
  

Подробнее здесь: [url]https://stackoverflow.com/questions/79603641/how-to-improve-precipitation-prediction-when-most-values-in-the-dataset-are-zero[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Проблемы с тестированием значений, сохраненных в намерении Android (дополнительные функции всегда равны нулю)

Последнее сообщение Anonymous « 29 сен 2023, 18:45
Добавлено в форуме Android

Anonymous » 29 сен 2023, 18:45 » в форуме Android

У меня есть следующее расширение Android Intent:

import android.content.Intent импортировать android.os.Parcelable импортировать java.io.Serializable fun Intent.addNewTaskFlags(): Intent = применить { addFlags(Intent.FLAG_ACTIVITY_CLEAR_TOP или...

0 Ответы

46 Просмотры

Последнее сообщение Anonymous
29 сен 2023, 18:45
PHP: ложные значения всегда равны «», истинные значения всегда равны «1»? [дубликат]

Последнее сообщение Anonymous « 10 окт 2024, 15:39
Добавлено в форуме Php

Anonymous » 10 окт 2024, 15:39 » в форуме Php

Я пишу PHP в своем специальном плагине WordPress, который используется для галереи изображений.
Я был озадачен этим странным поведением в течение последних двух часов. Я понятия не имею, откуда это взялось, и отладка ни к чему меня не привела....

0 Ответы

76 Просмотры

Последнее сообщение Anonymous
10 окт 2024, 15:39
Извлечь значения осадков из netcdf

Последнее сообщение Anonymous « 25 ноя 2024, 15:49
Добавлено в форуме Python

Anonymous » 25 ноя 2024, 15:49 » в форуме Python

У меня застрял вопрос об извлечении переменной из файла NetCDF. Вот структура моего входного файла netcdf:

comephore_all
Out :

Размеры: (x: 85, y: 99, время: 236664)
Координаты:

x (x) float64 1.156e+06 1.158e+06 1.158e+06 ... 1.24e+06 1.24e+06...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
25 ноя 2024, 15:49
Извлечь значения осадков из netcdf

Последнее сообщение Anonymous « 27 ноя 2024, 13:36
Добавлено в форуме Python

Anonymous » 27 ноя 2024, 13:36 » в форуме Python

У меня застрял вопрос об извлечении переменной из файла NetCDF. Вот структура моего входного файла netcdf:

comephore_all
Out :

Размеры: (x: 85, y: 99, время: 236664)
Координаты:

x (x) float64 1.156e+06 1.158e+06 1.158e+06 ... 1.24e+06 1.24e+06...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
27 ноя 2024, 13:36
Климада - как добавить настройки осадков и штормовых наголов к урагану

Последнее сообщение Anonymous « 09 апр 2025, 20:31
Добавлено в форуме Python

Anonymous » 09 апр 2025, 20:31 » в форуме Python

Может ли кто -нибудь дать несколько указателей о том, как включить осадки и повреждение штормовых наголов от опасности урагана? Похоже, что большинство учебников связаны только с повреждением ветра.

Подробнее здесь:

0 Ответы

1 Просмотры

Последнее сообщение Anonymous
09 апр 2025, 20:31

Вернуться в «Python»

Programmiererforum