Как обучать модели GPT в трансформаторах с нуля? [закрыто]

Как обучать модели GPT в трансформаторах с нуля? [закрыто] ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как обучать модели GPT в трансформаторах с нуля? [закрыто]

Цитата

Сообщение Anonymous » 01 авг 2025, 00:46

Учитывая набор входов, которые я хочу использовать для обучения модели GPT-подобной из трансформаторов, как мне правильно настроить обучающую цель (рядом с прогнозом токена) в модели / токенизаторе? Это не текстовый домен, но в принципе мои входные данные имеют длину 500-600 токенов, и я хочу, чтобы модель позже генерировала что-то из подсказок различной длины, например, Только 1 токен, 10 токенов и т. Д. Чтобы быть ясным, модели исключительно целью является завершение подсказки. Результаты несколько имеют смысл, но трудно оценить.input_tokens = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

for i in range(len(input_tokens)):
prediction = model.predict(input_tokens[0:i]
label = input_tokens

< /code>
Некоторый псевдо-код, чтобы дать больше контекста: < /p>
alphabet_size = 30
# some pseudo data, already tokenized => n=2 here
# each entry should be used by the model to do the NTP
# 10 = BOS token
# 0 = padding
# 2 = EOS
input_data = [[1, 15, 21, 10, 13, 0, 2], [1, 5, 18, 21, 5, 7, 2]]

# we want to use a GPT-like model
from transformers import GPT2Model, GPT2Config

# custom wrapper
class Model(LightningModule):
def init():
self.gpt_model = GPT2Model(config) # could be any decoder model
self.output = nn.Linear(hidden_size, vocab_size)
def forward():
outputs = self.gpt_model(input_ids)
hidden_states = outputs.last_hidden_state
logits = self.output = self.output(hidden_states)
def training_step(self, batch, batch_idx):
input_ids, labels = batch
logits = self(input_ids)
loss = cross_entropy(logits.view(-1, vocab_size), labels.view(-1), ignore_padding)

# is this a valid tokenizer?
class Loader:
def __get_item__(self, idx):
# randomly cut data here?
input_ids = self.data[idx]
labels = self.data[idx]
# or something like this
input_ids = self.data[idx][0: rnd]
labels = self.data[idx][rnd:rnd+1]
return (input_ids, labels)
# or
input_ids = self.data[idx][:-1]
labels = self.data[idx][1:]

model = Model()
trainer = Trainer(model)
trainer.fit(model, train_loader)

Подробнее здесь: https://stackoverflow.com/questions/797 ... om-scratch

1753998413

Anonymous

 Учитывая набор входов, которые я хочу использовать для обучения модели GPT-подобной из трансформаторов, как мне правильно настроить обучающую цель (рядом с прогнозом токена) в модели / токенизаторе? Это не текстовый домен, но в принципе мои входные данные имеют длину 500-600 токенов, и я хочу, чтобы модель позже генерировала что-то из подсказок различной длины, например, Только 1 токен, 10 токенов и т. Д. Чтобы быть ясным, модели исключительно целью является завершение подсказки. Результаты несколько имеют смысл, но трудно оценить.input_tokens = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

for i in range(len(input_tokens)):
prediction = model.predict(input_tokens[0:i]
label = input_tokens[i]

< /code>
Некоторый псевдо-код, чтобы дать больше контекста: < /p>
alphabet_size = 30
# some pseudo data, already tokenized => n=2 here
# each entry should be used by the model to do the NTP
# 10 = BOS token
# 0 = padding
# 2 = EOS
input_data = [[1, 15, 21, 10, 13, 0, 2], [1, 5, 18, 21, 5, 7, 2]]

# we want to use a GPT-like model
from transformers import GPT2Model, GPT2Config

# custom wrapper
class Model(LightningModule):
def init():
self.gpt_model = GPT2Model(config) # could be any decoder model
self.output = nn.Linear(hidden_size, vocab_size)
def forward():
outputs = self.gpt_model(input_ids)
hidden_states = outputs.last_hidden_state
logits = self.output = self.output(hidden_states)
def training_step(self, batch, batch_idx):
input_ids, labels = batch
logits = self(input_ids)
loss = cross_entropy(logits.view(-1, vocab_size), labels.view(-1), ignore_padding)

# is this a valid tokenizer?
class Loader:
def __get_item__(self, idx):
# randomly cut data here?
input_ids = self.data[idx]
labels = self.data[idx]
# or something like this
input_ids = self.data[idx][0: rnd]
labels = self.data[idx][rnd:rnd+1]
return (input_ids, labels)
# or
input_ids = self.data[idx][:-1]
labels = self.data[idx][1:]

model = Model()
trainer = Trainer(model)
trainer.fit(model, train_loader)
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79720108/how-to-train-gpt-models-in-transformers-from-scratch[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как обучать модели GPT в трансформаторах с нуля?

Последнее сообщение Anonymous « 30 июл 2025, 17:18
Добавлено в форуме Python

Anonymous » 30 июл 2025, 17:18 » в форуме Python

Учитывая набор входов, которые я хочу использовать для обучения модели GPT-подобной из трансформаторов, как мне правильно настроить обучающую цель (рядом с прогнозом токена) в модели / токенизаторе? Это не текстовый домен, но в принципе мои входные...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
30 июл 2025, 17:18
Как постепенно обучать модель распознавания лиц без переобучения с нуля?

Последнее сообщение Anonymous « 22 окт 2024, 00:13
Добавлено в форуме Python

Anonymous » 22 окт 2024, 00:13 » в форуме Python

Я создаю модель распознавания лиц. Я уже обучил модель, используя образы двух человек (Криштиану Роналду и Лионеля Месси). Теперь я хочу добавить в модель больше людей (например, Марию Шарапову), не переучивая все с нуля.
Есть ли способ обучить...

0 Ответы

28 Просмотры

Последнее сообщение Anonymous
22 окт 2024, 00:13
Как исправить «Тренер: оценка требует eval_dataset» в трансформаторах Huggingfice?

Последнее сообщение Anonymous « 11 фев 2025, 11:13
Добавлено в форуме Python

Anonymous » 11 фев 2025, 11:13 » в форуме Python

Я пытаюсь сделать создание без набора данных оценки.
Для этого я использую следующий код:
training_args = TrainingArguments(
output_dir=resume_from_checkpoint,
evaluation_strategy= epoch ,
per_device_train_batch_size=1,
)
def compute_metrics(pred:...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
11 фев 2025, 11:13
Кто помогает мне обучать ML [закрыто]

Последнее сообщение Anonymous « 16 июл 2025, 12:17
Добавлено в форуме Python

Anonymous » 16 июл 2025, 12:17 » в форуме Python

Я написал формулы для машинного обучения и квантового пуассона, которые объединяют и анализируют историческую статистику, чтобы сделать прогнозы более точно, чем раньше. Мои собственные калькуляторы, созданные Chatgpt, имеют среднюю точность 85%, и...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
16 июл 2025, 12:17
Как обучать GNN на огромных наборах данных?

Последнее сообщение Гость « 23 сен 2023, 22:18
Добавлено в форуме Python

Гость » 23 сен 2023, 22:18 » в форуме Python

У меня есть набор данных, имеющий форму (783126,3), где в моем наборе данных есть три столбца R1, R2 и Оценка, представляющие Остаток 1, Остаток 2 и их Оценка. Я хочу обучить нейронную сеть графа на своих данных, чтобы я мог проецировать данные в...

0 Ответы

33 Просмотры

Последнее сообщение Гость
23 сен 2023, 22:18

Вернуться в «Python»