Как улучшить машинное обучение на базовом наборе данных? - Цифровое Кемерово

Как улучшить машинное обучение на базовом наборе данных? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как улучшить машинное обучение на базовом наборе данных?

Цитата

Сообщение Anonymous » 30 дек 2024, 22:23

Я пытаюсь изучить машинный язык, используя Python и модуль TensorFlow. Я не добился больших успехов в получении точных прогнозов. Приношу извинения, так как я не обученный программист или специалист по данным. Как показано в моем коде ниже, я предоставляю очень простой набор данных, который должен быть совершенно предсказуем даже для 8-летнего ребенка, но мои модели машинного обучения (последовательная сеть/LSTM и плотная нейронная сеть) не работают. очень хорошо. Чтобы внести ясность, набор данных представляет собой X = y = числа от 10 до 800 с шагом 10 (то есть 10, 20, 30,..., 800). Прогноз для y в момент времени n+1 должен быть просто X + 10 в момент n. Итак, если X = 500, мы прогнозируем, что y (в следующей точке n) будет = 510.
Ниже приведен мой код:
# This is a test script using fake input data that should be easily predictable

import tensorflow as tf
print("TensorFlow version:", tf.__version__)

import time
import datetime as dt

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error

# KEY VARIABLES
EPOCHS = 10
WINDOW_SIZE = 1 # Num of periods of input for each prediction

# Prepare data with sliding window
def create_windowed_data(data, window_size):
"""
Create sequences of data for a sliding window.

Args:
data (np.array): Array of features (Price, Volume).
window_size (int): Number of days in the window.

Returns:
X (np.array): Features with shape (samples, window_size, features).
y (np.array): Target values with shape (samples,).
"""
X, y = [], []
for i in range(len(data) - window_size):
X.append(data[i:i + window_size, :-1]) # All features except target
y.append(data[i + window_size, -1]) # Target is the next day's price
# print('X', X)
# print('y', y)
return np.array(X), np.array(y)

######################
## START PROCESSING ##
######################

data = {'value': [i for i in range(10, 800, 10)],
'value2': [i for i in range(10, 800, 10)]
}
init_df = pd.DataFrame(data)
print('init df\n', init_df)

features = init_df.values
# print('features', features)

X, y = create_windowed_data(features, WINDOW_SIZE)

# Scale the data
scaler_x = MinMaxScaler()
scaler_y = MinMaxScaler()

# Flatten X for scaling
X_flat = X.reshape(-1, X.shape[-1])
X_scaled = scaler_x.fit_transform(X_flat).reshape(X.shape)
y_scaled = scaler_y.fit_transform(y.reshape(-1, 1))

# Split data into train and test sets
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y_scaled, test_size=0.1, random_state=12)
X_test_flat = X_test.reshape(-1, X_test.shape[-1])
X_test_original = scaler_x.inverse_transform(X_test_flat).reshape(X_test.shape)

# print('x train', X_train)
# print('shape', WINDOW_SIZE, X_train.shape[-1], X_train.shape)

# SEQUENTIAL NETWORK
print('\nSEQUENTIAL NETWORK')
# Build the model
model = tf.keras.Sequential([
tf.keras.layers.Input(shape=(WINDOW_SIZE, X_train.shape[-1])),
tf.keras.layers.LSTM(64, activation='relu', return_sequences=False),
tf.keras.layers.Dropout(0.2),
tf.keras.layers.Dense(32, activation='relu'),
tf.keras.layers.Dropout(0.2),
tf.keras.layers.Dense(1) # Single output for predicted price
])

model.compile(optimizer='adam', loss='mse', metrics=['mae'])

# Train the model
history = model.fit(X_train, y_train, epochs=EPOCHS, batch_size=32, validation_split=0.2, verbose=0)

# Evaluate the model
loss, mae = model.evaluate(X_test, y_test, verbose=0)
print(f"Test Mean Absolute Error: {mae} and loss {loss}")

# Predict and inverse transform the predictions
y_pred_scaled = model.predict(X_test)
y_pred = scaler_y.inverse_transform(y_pred_scaled)
y_test_original = scaler_y.inverse_transform(y_test)
# X_test_flat = X_test.reshape(-1, X_test.shape[-1])
# X_test_original = scaler_x.inverse_transform(X_test_flat).reshape(X_test.shape)

# Display a few predictions vs actual values
comparison = pd.DataFrame({
"Actual": y_test_original.flatten(),
"Predicted": y_pred.flatten()
})
comparison['error'] = comparison['Actual'] - comparison['Predicted']

# pd.set_option('display.max_rows', None)
# print(comparison.head())
# print('X test origi', X_test_original)
# print('y test origi', y_test_original)
print(comparison)
mae_original = mean_absolute_error(y_test_original, y_pred)
print(f"MAE (orig scale): {mae_original}")
# print('MAE', comparison['error'].abs().mean())
mse_original = mean_squared_error(y_test_original, y_pred)
print(f"MSE (orig scale): {mse_original}")
# print('MSE', (comparison['error']**2).mean())
r2 = r2_score(y_test, y_pred)
print(f"R² Score (orig scale): {r2}")

# DEEP NEURAL NETWORK
print('\nDEEP NEURAL NETWORK')
from keras.layers import Dropout
from keras import Input, Model

# specify how many hidden layers to add (min 1)
n_layers = 5

inputs = Input(shape=(WINDOW_SIZE,X_train.shape[-1])) # No batch parameter
x = tf.keras.layers.Dense(200, activation='relu')(inputs)
# x = Dropout(0.3)(x)
x = tf.keras.layers.Flatten()(x)
for layer in range(n_layers - 1):
x = tf.keras.layers.Dense(200, activation='relu')(x)
# x = Dropout(0.3)(x)
output = tf.keras.layers.Dense(1, activation='linear')(x)
deep_n_net = Model(inputs, output)
deep_n_net.summary()
deep_n_net.compile(optimizer = 'adam', loss= 'mse', metrics=['mse'])

deep_n_net.fit(X_train, y_train, epochs = EPOCHS, validation_split=0.2, verbose=0, )

# Evaluate the model
loss, mae = deep_n_net.evaluate(X_test, y_test, verbose=0)
print(f"Test Mean Absolute Error: {mae} and loss {loss}")

# Predict and inverse transform the predictions
y_pred_scaled = deep_n_net.predict(X_test)
y_pred = scaler_y.inverse_transform(y_pred_scaled)
y_test_original = scaler_y.inverse_transform(y_test)

# Display a few predictions vs actual values
comparison = pd.DataFrame({
"Actual": y_test_original.flatten(),
"Predicted": y_pred.flatten()
})
comparison['error'] = comparison['Actual'] - comparison['Predicted']

# pd.set_option('display.max_rows', None)
# print(comparison.head())
# print('X test origi', X_test_original)
# print('y test origi', y_test_original)
print(comparison)
mae_original = mean_absolute_error(y_test_original, y_pred)
print(f"MAE (orig scale): {mae_original}")
# print('MAE', comparison['error'].abs().mean())
mse_original = mean_squared_error(y_test_original, y_pred)
print(f"MSE (orig scale): {mse_original}")
# print('MSE', (comparison['error']**2).mean())
r2 = r2_score(y_test, y_pred)
print(f"R² Score (orig scale): {r2}")

Подробнее здесь: https://stackoverflow.com/questions/793 ... c-data-set

Реклама

1735586631

Anonymous

Я пытаюсь изучить машинный язык, используя Python и модуль TensorFlow. Я не добился больших успехов в получении точных прогнозов. Приношу извинения, так как я не обученный программист или специалист по данным. Как показано в моем коде ниже, я предоставляю очень простой набор данных, который должен быть совершенно предсказуем даже для 8-летнего ребенка, но мои модели машинного обучения (последовательная сеть/LSTM и плотная нейронная сеть) не работают. очень хорошо. Чтобы внести ясность, набор данных представляет собой X = y = числа от 10 до 800 с шагом 10 (то есть 10, 20, 30,..., 800). Прогноз для y в момент времени n+1 должен быть просто X + 10 в момент n.  Итак, если X = 500, мы прогнозируем, что y (в следующей точке n) будет = 510.
Ниже приведен мой код:
# This is a test script using fake input data that should be easily predictable

import tensorflow as tf
print("TensorFlow version:", tf.__version__)

import time
import datetime as dt

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error

# KEY VARIABLES
EPOCHS = 10
WINDOW_SIZE = 1  # Num of periods of input for each prediction

# Prepare data with sliding window
def create_windowed_data(data, window_size):
"""
Create sequences of data for a sliding window.

Args:
data (np.array): Array of features (Price, Volume).
window_size (int): Number of days in the window.

Returns:
X (np.array): Features with shape (samples, window_size, features).
y (np.array): Target values with shape (samples,).
"""
X, y = [], []
for i in range(len(data) - window_size):
X.append(data[i:i + window_size, :-1])  # All features except target
y.append(data[i + window_size, -1])  # Target is the next day's price
# print('X', X)
# print('y', y)
return np.array(X), np.array(y)

######################
## START PROCESSING ##
######################

data = {'value': [i for i in range(10, 800, 10)],
'value2': [i for i in range(10, 800, 10)]
}
init_df = pd.DataFrame(data)
print('init df\n', init_df)

features = init_df.values
# print('features', features)

X, y = create_windowed_data(features, WINDOW_SIZE)

# Scale the data
scaler_x = MinMaxScaler()
scaler_y = MinMaxScaler()

# Flatten X for scaling
X_flat = X.reshape(-1, X.shape[-1])
X_scaled = scaler_x.fit_transform(X_flat).reshape(X.shape)
y_scaled = scaler_y.fit_transform(y.reshape(-1, 1))

# Split data into train and test sets
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y_scaled, test_size=0.1, random_state=12)
X_test_flat = X_test.reshape(-1, X_test.shape[-1])
X_test_original = scaler_x.inverse_transform(X_test_flat).reshape(X_test.shape)

# print('x train', X_train)
# print('shape', WINDOW_SIZE, X_train.shape[-1], X_train.shape)

# SEQUENTIAL NETWORK
print('\nSEQUENTIAL NETWORK')
# Build the model
model = tf.keras.Sequential([
tf.keras.layers.Input(shape=(WINDOW_SIZE, X_train.shape[-1])),
tf.keras.layers.LSTM(64, activation='relu', return_sequences=False),
tf.keras.layers.Dropout(0.2),
tf.keras.layers.Dense(32, activation='relu'),
tf.keras.layers.Dropout(0.2),
tf.keras.layers.Dense(1)  # Single output for predicted price
])

model.compile(optimizer='adam', loss='mse', metrics=['mae'])

# Train the model
history = model.fit(X_train, y_train, epochs=EPOCHS, batch_size=32, validation_split=0.2, verbose=0)

# Evaluate the model
loss, mae = model.evaluate(X_test, y_test, verbose=0)
print(f"Test Mean Absolute Error: {mae} and loss {loss}")

# Predict and inverse transform the predictions
y_pred_scaled = model.predict(X_test)
y_pred = scaler_y.inverse_transform(y_pred_scaled)
y_test_original = scaler_y.inverse_transform(y_test)
# X_test_flat = X_test.reshape(-1, X_test.shape[-1])
# X_test_original = scaler_x.inverse_transform(X_test_flat).reshape(X_test.shape)

# Display a few predictions vs actual values
comparison = pd.DataFrame({
"Actual": y_test_original.flatten(),
"Predicted": y_pred.flatten()
})
comparison['error'] = comparison['Actual'] - comparison['Predicted']

# pd.set_option('display.max_rows', None)
# print(comparison.head())
# print('X test origi', X_test_original)
# print('y test origi', y_test_original)
print(comparison)
mae_original = mean_absolute_error(y_test_original, y_pred)
print(f"MAE (orig scale): {mae_original}")
# print('MAE', comparison['error'].abs().mean())
mse_original = mean_squared_error(y_test_original, y_pred)
print(f"MSE (orig scale): {mse_original}")
# print('MSE', (comparison['error']**2).mean())
r2 = r2_score(y_test, y_pred)
print(f"R² Score (orig scale):  {r2}")

# DEEP NEURAL NETWORK
print('\nDEEP NEURAL NETWORK')
from keras.layers import Dropout
from keras import Input, Model

# specify how many hidden layers to add (min 1)
n_layers = 5

inputs = Input(shape=(WINDOW_SIZE,X_train.shape[-1]))   # No batch parameter
x = tf.keras.layers.Dense(200, activation='relu')(inputs)
# x = Dropout(0.3)(x)
x = tf.keras.layers.Flatten()(x)
for layer in range(n_layers - 1):
x = tf.keras.layers.Dense(200, activation='relu')(x)
# x = Dropout(0.3)(x)
output = tf.keras.layers.Dense(1, activation='linear')(x)
deep_n_net = Model(inputs, output)
deep_n_net.summary()
deep_n_net.compile(optimizer = 'adam', loss= 'mse', metrics=['mse'])

deep_n_net.fit(X_train, y_train, epochs = EPOCHS, validation_split=0.2, verbose=0, )

# Evaluate the model
loss, mae = deep_n_net.evaluate(X_test, y_test, verbose=0)
print(f"Test Mean Absolute Error: {mae} and loss {loss}")

# Predict and inverse transform the predictions
y_pred_scaled = deep_n_net.predict(X_test)
y_pred = scaler_y.inverse_transform(y_pred_scaled)
y_test_original = scaler_y.inverse_transform(y_test)

# Display a few predictions vs actual values
comparison = pd.DataFrame({
"Actual": y_test_original.flatten(),
"Predicted": y_pred.flatten()
})
comparison['error'] = comparison['Actual'] - comparison['Predicted']

# pd.set_option('display.max_rows', None)
# print(comparison.head())
# print('X test origi', X_test_original)
# print('y test origi', y_test_original)
print(comparison)
mae_original = mean_absolute_error(y_test_original, y_pred)
print(f"MAE (orig scale): {mae_original}")
# print('MAE', comparison['error'].abs().mean())
mse_original = mean_squared_error(y_test_original, y_pred)
print(f"MSE (orig scale): {mse_original}")
# print('MSE', (comparison['error']**2).mean())
r2 = r2_score(y_test, y_pred)
print(f"R² Score (orig scale): {r2}")
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79318363/how-to-improve-machine-learning-on-basic-data-set[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как улучшить машинное обучение на базовом наборе данных?

Последнее сообщение Anonymous « 30 дек 2024, 21:46
Добавлено в форуме Python

Anonymous » 30 дек 2024, 21:46 » в форуме Python

Я пытаюсь изучить машинный язык, используя Python и модуль TensorFlow. Я не добился больших успехов в получении точных прогнозов. Приношу извинения, так как я не обученный программист или специалист по данным. Как показано в моем коде ниже, я...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
30 дек 2024, 21:46
Машинное обучение Python. Можно ли получить худшие результаты в тестовом наборе данных после настройки модели?

Последнее сообщение Гость « 22 сен 2023, 19:57
Добавлено в форуме Python

Гость » 22 сен 2023, 19:57 » в форуме Python

Я только что выполнил свой первый проект по машинному обучению на основе набора данных двоичной классификации для обнаружения мошенничества после многого изучения. (Вот ссылка): Блокнот Kaggle

И что удивительно, моя модель показала худшие...

0 Ответы

24 Просмотры

Последнее сообщение Гость
22 сен 2023, 19:57
«Нужно ли изучать структуры данных и алгоритмы (DSA) перед погружением в машинное обучение?» [закрыто]

Последнее сообщение Anonymous « 26 ноя 2024, 15:52
Добавлено в форуме Python

Anonymous » 26 ноя 2024, 15:52 » в форуме Python

Я планирую начать изучать машинное обучение и задаюсь вопросом, стоит ли мне заранее сосредоточиться на освоении структур данных и алгоритмов (DSA).

Является ли DSA необходимым условием для машинного обучения?

Помогает ли знание DSA в понимании...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
26 ноя 2024, 15:52
Как предсказать нелинейные, некоррелированные функции с несколькими точками данных, используя машинное обучение

Последнее сообщение Anonymous « 23 июл 2025, 07:21
Добавлено в форуме Python

Anonymous » 23 июл 2025, 07:21 » в форуме Python

Итак, я работаю над задачей прогнозирования, где моя цель - предсказать объем резервуара и текущего уровня. У меня есть некоторые данные Sitreps, но они не являются согласованными и недостаточно для обучения надежной модели (то есть только 26...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
23 июл 2025, 07:21
Как исправить нулевой риск потерь при первоначальном расчете прибыли: машинное обучение

Последнее сообщение Anonymous « 15 июл 2024, 23:51
Добавлено в форуме Python

Anonymous » 15 июл 2024, 23:51 » в форуме Python

Я только что закончил проект для своего учебного лагеря. Однако, независимо от того, как я делаю расчет прибыли или начальную загрузку, я продолжаю получать нулевой риск убытка. Я не знаю, как это исправить.
### Ключевые значения для расчета...

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
15 июл 2024, 23:51

Вернуться в «Python»

Programmiererforum