В настоящее время я изучаю этот урок по созданию базового LLM, который выдает текст, похожий на Шекспира (полный код преобразователя находится в конце). Я нахожусь в конце, но когда я тренирую его и получаю результат, результат просто повторяется с одним и тем же материалом. Вот мой код
A', '! re al, we hear me speak.All:Speak.First Citizen:You are all resolved rather to die to than famish?A', '! re al, we hear me speak.All:Speak.First Citizen:You are all resolved rather to die to than famish?A', '! re al, we hear me speak.All:Speak.First Citizen:You are all resolved rather to die to than famish?A', '! re al, we hear me speak.All:Speak.First Citizen:You are all resolved rather to die to than famish?
Это повторяется даже дальше.
Я пытался увеличить объем поступающих данных, но это не помогло, я также пытался изменить количество итераций и размер пакета/размера блока. Но повторения это все равно не изменило.
Нужно ли мне просто делать еще более интенсивные тренировки?
В настоящее время я изучаю этот урок по созданию базового LLM, который выдает текст, похожий на Шекспира (полный код преобразователя находится в конце). Я нахожусь в конце, но когда я тренирую его и получаю результат, результат просто повторяется с одним и тем же материалом. Вот мой код [code]import tiktoken import torch import torch.nn as nn from torch.nn import functional as F from functions.encode import encode_chars from functions.character_amount import character_amount from functions.train_test_split import train_test_split from functions.decoding import decoding with open(r'example_shakespeare_text.txt') as file: file = file.read() split = (file.split('\n')) max_iters = 25 num_embed = 64 num_heads = 16 num_layers = 8 batch_size = 32 block_size = 128 dropout = 0.2 learning_rate = 1e-3
if torch.cuda.is_available(): device = 'cuda' else: device = 'cpu'
data = torch.tensor(encoded, dtype=torch.long) train_data, test_data = train_test_split(data=data)
def array_creation(split): if split == 'train': data = train_data else: data = test_data
ix = torch.randint(len(data) - block_size, (batch_size,)) x = torch.stack([data[i:i + block_size] for i in ix]) y = torch.stack([data[i+1:i+block_size + 1] for i in ix]) x = x.to(device) y = y.to(device) return x, y
class MultiHead(nn.Module): def __init__(self, num_heads, head_size): super().__init__() self.heads = nn.ModuleList([Head(head_size) for _ in range(num_heads)]) self.prj = nn.Linear(num_embed, num_embed) self.dropout = nn.Dropout(dropout) def forward(self, x): out = torch.cat([h(x) for h in self.heads], dim=-1) out = self.dropout(self.prj(out)) return out
context = torch.zeros((1,1), dtype=torch.long, device=device) print(decoding(generated_list=model.generate(context,max_new_tokens=100)[0].tolist(), encode=encode)) [/code] Вот результат [code]A', '! re al, we hear me speak.All:Speak.First Citizen:You are all resolved rather to die to than famish?A', '! re al, we hear me speak.All:Speak.First Citizen:You are all resolved rather to die to than famish?A', '! re al, we hear me speak.All:Speak.First Citizen:You are all resolved rather to die to than famish?A', '! re al, we hear me speak.All:Speak.First Citizen:You are all resolved rather to die to than famish? [/code] Это повторяется даже дальше. Я пытался увеличить объем поступающих данных, но это не помогло, я также пытался изменить количество итераций и размер пакета/размера блока. Но повторения это все равно не изменило. Нужно ли мне просто делать еще более интенсивные тренировки?
В настоящее время я изучаю этот урок по созданию базового LLM, который выдает текст, похожий на Шекспира (полный код преобразователя находится в конце). Я нахожусь в конце, но когда я тренирую его и получаю результат, результат просто повторяется с...
Итак, я следовал руководству, и по какой-то причине в тот момент, когда страница запрашивает файл изображения текущего_пользователя, в конце имени файла изображения в запросе get есть ') .
вот модель:
from flaskproject import db, login_manager
from...
Ни элемент графического интерфейса (обертка), ни метод оболочки print_control_identifiers не найдены (опечатка?) эта ошибка возвращается для следующего кода:
# ждем появления окна self.main_window_dialog =...
Я запускаю ehartford_dolphin-2.1-mistral-7b на машине RTX A6000 на RunPod с шаблоном TheBloke LLM Text Generation WebUI.
У меня есть 2 варианта: запуск webui на runpod или запуск шаблона вывода HuggingFace Text Generation на runpod
Вариант 1....