Как прогнозировать следующее слово с использованием модели LSTM? - Цифровое Кемерово

Как прогнозировать следующее слово с использованием модели LSTM? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как прогнозировать следующее слово с использованием модели LSTM?

Цитата

Сообщение Anonymous » 08 июл 2025, 11:42

Я в настоящее время строю модель LSTM в Pytorch, чтобы предсказать следующее слово данного ввода. < /p>
Моя модель: < /p>
class LSTM(nn.Module):
def __init__(self, vocab_size, embedding_dim, hidden_dim, num_layers, dropout_rate, tie_weights):
super().__init__()

self.num_layers = num_layers
self.hidden_dim = hidden_dim
self.embedding_dim = embedding_dim

self.embedding = nn.Embedding(vocab_size, embedding_dim)
self.lstm = nn.LSTM(embedding_dim, hidden_dim, num_layers=num_layers,
dropout=dropout_rate, batch_first=True)
self.dropout = nn.Dropout(dropout_rate)
self.linear = nn.Linear(hidden_dim, vocab_size)

if tie_weights:
#Embedding and hidden layer need to be same size for weight tieing
assert embedding_dim == hidden_dim, 'cannot tie, check dims'
self.linear.weight = self.embedding.weight
self.init_weights()

def forward(self, x):
# x is a batch of input sequences
x = self.embedding(x)
x, _ = self.lstm(x)
x = self.linear(x)
return x

def init_weights(self):
init_range_emb = 0.1
init_range_other = 1/math.sqrt(self.hidden_dim)
self.embedding.weight.data.uniform_(-init_range_emb, init_range_emb)
self.linear.weight.data.uniform_(-init_range_other, init_range_other)
self.linear.bias.data.zero_()
for i in range(self.num_layers):
self.lstm.all_weights[0] = torch.FloatTensor(self.embedding_dim,
self.hidden_dim).uniform_(-init_range_other, init_range_other)
self.lstm.all_weights[1] = torch.FloatTensor(self.hidden_dim,
self.hidden_dim).uniform_(-init_range_other, init_range_other)

vocab_size = len(vocab)
embedding_dim = 100
hidden_dim = 100
num_layers = 2
dropout_rate = 0.4
tie_weights = True
model = LSTM(vocab_size, embedding_dim, hidden_dim, num_layers, dropout_rate, tie_weights)
model.to(device)
< /code>
Funciton обучения и оценки: < /p>
import copy
import time

criterion = nn.CrossEntropyLoss()
lr = 20.0 # learning rate
optimizer = torch.optim.SGD(model.parameters(), lr=lr)
scheduler = torch.optim.lr_scheduler.StepLR(optimizer, 1.0, gamma=0.95)

def train(model: nn.Module) -> None:
model.train() # turn on train mode
total_loss = 0.
log_interval = 200
start_time = time.time()

num_batches = len(train_data) // bptt
for batch, i in enumerate(range(0, train_data.size(0) - 1, bptt)):
data, targets = get_batch(train_data, i)
seq_len = data.size(0)
output = model(data)
loss = criterion(output.view(-1, vocab_size), targets)

optimizer.zero_grad()
loss.backward()
torch.nn.utils.clip_grad_norm_(model.parameters(), 0.5)
optimizer.step()

total_loss += loss.item()

if batch % log_interval == 0 and batch > 0:
lr = scheduler.get_last_lr()[0]
ms_per_batch = (time.time() - start_time) * 1000 / log_interval
cur_loss = total_loss / log_interval
ppl = math.exp(cur_loss)
print(f'| epoch {epoch:3d} | {batch:5d}/{num_batches:5d} batches | '
f'lr {lr:02.2f} | ms/batch {ms_per_batch:5.2f} | '
f'loss {cur_loss:5.2f} | ppl {ppl:8.2f}')
total_loss = 0
start_time = time.time()

def evaluate(model: nn.Module, eval_data: Tensor) -> float:
model.eval() # turn on evaluation mode
total_loss = 0.
with torch.no_grad():
for i in range(0, eval_data.size(0) - 1, bptt):
data, targets = get_batch(eval_data, i)
seq_len = data.size(0)
output = model(data)
output_flat = output.view(-1, vocab_size)
total_loss += seq_len * criterion(output_flat, targets).item()
return total_loss / (len(eval_data) - 1)
< /code>
петля обучения < /p>
best_val_loss = float('inf')
epochs = 50
best_model = None

for epoch in range(1, epochs + 1):
epoch_start_time = time.time()
train(model)
val_loss = evaluate(model, val_data)
val_ppl = math.exp(val_loss)
elapsed = time.time() - epoch_start_time
print('-' * 89)
print(f'| end of epoch {epoch:3d} | time: {elapsed:5.2f}s | '
f'valid loss {val_loss:5.2f} | valid ppl {val_ppl:8.2f}')
print('-' * 89)

if val_loss < best_val_loss:
best_val_loss = val_loss
best_model = copy.deepcopy(model)

scheduler.step()
< /code>
Моя проблема в том, что я понятия не имею, как это сделать. Я видел некоторые реализации текстовых генераторов LSTM на основе персонажа, но я ищу это, чтобы основываться на слов. Например, я хочу передать вход, такой как «Как дела», и выходной сигнал будет включать следующее предсказанное слово, например, «Как дела сегодня»
Любая помощь оценена.

Подробнее здесь: https://stackoverflow.com/questions/751 ... lstm-model

Реклама

1751964151

Anonymous

 Я в настоящее время строю модель LSTM в Pytorch, чтобы предсказать следующее слово данного ввода.  < /p>
Моя модель: < /p>
class LSTM(nn.Module):
def __init__(self, vocab_size, embedding_dim, hidden_dim, num_layers, dropout_rate, tie_weights):
super().__init__()

self.num_layers = num_layers
self.hidden_dim = hidden_dim
self.embedding_dim = embedding_dim

self.embedding = nn.Embedding(vocab_size, embedding_dim)
self.lstm = nn.LSTM(embedding_dim, hidden_dim, num_layers=num_layers,
dropout=dropout_rate, batch_first=True)
self.dropout = nn.Dropout(dropout_rate)
self.linear = nn.Linear(hidden_dim, vocab_size)

if tie_weights:
#Embedding and hidden layer need to be same size for weight tieing
assert embedding_dim == hidden_dim, 'cannot tie, check dims'
self.linear.weight = self.embedding.weight
self.init_weights()

def forward(self, x):
# x is a batch of input sequences
x = self.embedding(x)
x, _ = self.lstm(x)
x = self.linear(x)
return x

def init_weights(self):
init_range_emb = 0.1
init_range_other = 1/math.sqrt(self.hidden_dim)
self.embedding.weight.data.uniform_(-init_range_emb, init_range_emb)
self.linear.weight.data.uniform_(-init_range_other, init_range_other)
self.linear.bias.data.zero_()
for i in range(self.num_layers):
self.lstm.all_weights[i][0] = torch.FloatTensor(self.embedding_dim,
self.hidden_dim).uniform_(-init_range_other, init_range_other)
self.lstm.all_weights[i][1] = torch.FloatTensor(self.hidden_dim,
self.hidden_dim).uniform_(-init_range_other, init_range_other)

vocab_size = len(vocab)
embedding_dim = 100
hidden_dim = 100
num_layers = 2
dropout_rate = 0.4
tie_weights = True
model = LSTM(vocab_size, embedding_dim, hidden_dim, num_layers, dropout_rate, tie_weights)
model.to(device)
< /code>
Funciton обучения и оценки: < /p>
import copy
import time

criterion = nn.CrossEntropyLoss()
lr = 20.0  # learning rate
optimizer = torch.optim.SGD(model.parameters(), lr=lr)
scheduler = torch.optim.lr_scheduler.StepLR(optimizer, 1.0, gamma=0.95)

def train(model: nn.Module) -> None:
model.train()  # turn on train mode
total_loss = 0.
log_interval = 200
start_time = time.time()

num_batches = len(train_data) // bptt
for batch, i in enumerate(range(0, train_data.size(0) - 1, bptt)):
data, targets = get_batch(train_data, i)
seq_len = data.size(0)
output = model(data)
loss = criterion(output.view(-1, vocab_size), targets)

optimizer.zero_grad()
loss.backward()
torch.nn.utils.clip_grad_norm_(model.parameters(), 0.5)
optimizer.step()

total_loss += loss.item()

if batch % log_interval == 0 and batch > 0:
lr = scheduler.get_last_lr()[0]
ms_per_batch = (time.time() - start_time) * 1000 / log_interval
cur_loss = total_loss / log_interval
ppl = math.exp(cur_loss)
print(f'| epoch {epoch:3d} | {batch:5d}/{num_batches:5d} batches | '
f'lr {lr:02.2f} | ms/batch {ms_per_batch:5.2f} | '
f'loss {cur_loss:5.2f} | ppl {ppl:8.2f}')
total_loss = 0
start_time = time.time()

def evaluate(model: nn.Module, eval_data: Tensor) -> float:
model.eval()  # turn on evaluation mode
total_loss = 0.
with torch.no_grad():
for i in range(0, eval_data.size(0) - 1, bptt):
data, targets = get_batch(eval_data, i)
seq_len = data.size(0)
output = model(data)
output_flat = output.view(-1, vocab_size)
total_loss += seq_len * criterion(output_flat, targets).item()
return total_loss / (len(eval_data) - 1)
< /code>
петля обучения < /p>
best_val_loss = float('inf')
epochs = 50
best_model = None

for epoch in range(1, epochs + 1):
epoch_start_time = time.time()
train(model)
val_loss = evaluate(model, val_data)
val_ppl = math.exp(val_loss)
elapsed = time.time() - epoch_start_time
print('-' * 89)
print(f'| end of epoch {epoch:3d} | time: {elapsed:5.2f}s | '
f'valid loss {val_loss:5.2f} | valid ppl {val_ppl:8.2f}')
print('-' * 89)

if val_loss <  best_val_loss:
best_val_loss = val_loss
best_model = copy.deepcopy(model)

scheduler.step()
< /code>
Моя проблема в том, что я понятия не имею, как это сделать. Я видел некоторые реализации текстовых генераторов LSTM на основе персонажа, но я ищу это, чтобы основываться на слов. Например, я хочу передать вход, такой как «Как дела», и выходной сигнал будет включать следующее предсказанное слово, например, «Как дела сегодня» 
Любая помощь оценена.  

Подробнее здесь: [url]https://stackoverflow.com/questions/75127947/how-predict-next-word-using-lstm-model[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как прогнозировать следующее слово с использованием модели LSTM?

Последнее сообщение Anonymous « 08 июл 2025, 11:42
Добавлено в форуме Python

Anonymous » 08 июл 2025, 11:42 » в форуме Python

Я в настоящее время строю модель LSTM в Pytorch, чтобы предсказать следующее слово данного ввода.
Моя модель:
class LSTM(nn.Module):
def __init__(self, vocab_size, embedding_dim, hidden_dim, num_layers, dropout_rate, tie_weights):...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
08 июл 2025, 11:42
Регрессия PyTorch LSTM: взять только последнее выходное значение или взять все выходные значения LSTM?

Последнее сообщение Anonymous « 17 окт 2024, 19:02
Добавлено в форуме Python

Anonymous » 17 окт 2024, 19:02 » в форуме Python

Я пытаюсь обучить свою первую регрессионную модель LSTM на основе данных о глобальной средней температуре. Температура доступна для каждого месяца, начиная с 1 января 1850 года.
Из того, что я узнал в Интернете, я ввожу 12 месяцев подряд в LSTM и...

0 Ответы

35 Просмотры

Последнее сообщение Anonymous
17 окт 2024, 19:02
Что делает Keras, когда количество входных данных слоя LSTM больше или меньше количества ячеек LSTM в этом слое?

Последнее сообщение Anonymous « 04 ноя 2024, 15:21
Добавлено в форуме Python

Anonymous » 04 ноя 2024, 15:21 » в форуме Python

Пожалуйста, посмотрите код Python ниже. Я оставил комментарии в коде, где, по моему мнению, требуется акцент на информации.

import keras
import numpy

def build_model():
model = keras.models.Sequential()
model.add(keras.layers.LSTM(3, input_shape...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
04 ноя 2024, 15:21
Какое правило знать, сколько ячеек LSTM и сколько единиц в каждой ячейке LSTM вам нужны в керах?

Последнее сообщение Anonymous « 07 апр 2025, 23:32
Добавлено в форуме Python

Anonymous » 07 апр 2025, 23:32 » в форуме Python

Я знаю, что ячейка LSTM имеет несколько ANN внутри.

Но при определении скрытого слоя для той же проблемы я видел, как некоторые люди используют только 1 ячейку LSTM, а другие используют 2, 3 LSTM, подобные этой -

model = Sequential()...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
07 апр 2025, 23:32
Действительно ли объединить отстающие и топологические (TDA) функции в LSTM, чтобы предсказать следующее время во времен

Последнее сообщение Anonymous « 11 июн 2025, 03:24
Добавлено в форуме Python

Anonymous » 11 июн 2025, 03:24 » в форуме Python

Я работаю над проблемой прогнозирования временных рядов, используя модель LSTM, чтобы предсказать следующее значение времени в пути на каждом шаге. Набор данных содержит 5-минутные значения времени агрегированного времени для конкретной поездки....

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
11 июн 2025, 03:24

Вернуться в «Python»

Programmiererforum