RuntimeError: входной тензор в индексе 3 имеет недействительную форму [2, 2, 16, 128, 64], но ожидается [2, 4, 16, 128,

RuntimeError: входной тензор в индексе 3 имеет недействительную форму [2, 2, 16, 128, 64], но ожидается [2, 4, 16, 128, ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

RuntimeError: входной тензор в индексе 3 имеет недействительную форму [2, 2, 16, 128, 64], но ожидается [2, 4, 16, 128,

Цитата

Сообщение Anonymous » 08 июл 2025, 21:57

Ошибка времени выполнения при создании предварительной модели GPT2 -Medium с использованием библиотеки gurgingface в SageMaker - Ml.p3.8xlarge экземпляр.
menetuning_gpt2_script.py содержит ниже,
библиотеки:

Код: Выделить всё

from transformers import Trainer, TrainingArguments
from transformers import EarlyStoppingCallback
from transformers import GPT2LMHeadModel, GPT2Tokenizer
from transformers import TextDataset,DataCollatorForLanguageModeling
< /code>
Предварительные модели: < /p>
gpt2_model = GPT2LMHeadModel.from_pretrained("gpt2-medium")
gpt2_tokenizer = GPT2Tokenizer.from_pretrained("gpt2-medium")
< /code>
Поездка и тестовые данные Конструкция: < /p>
train_dataset = TextDataset(
tokenizer=gpt2_tokenizer,
file_path=train_path,
block_size=128)

test_dataset = TextDataset(
tokenizer=gpt2_tokenizer,
file_path=test_path,
block_size=128)

data_collator = DataCollatorForLanguageModeling(
tokenizer=gpt2_tokenizer, mlm=False,
)
< /code>
train_path

& test_path - неструктурированный файл текстовых данных размером 1,45 млн. и 200 тыс. Линий данных
Учебные аргументы:

Код: Выделить всё

training_args = TrainingArguments(
output_dir="./gpt2-finetuned-models", #The output directory
overwrite_output_dir=True, #overwrite the content of the output directory
num_train_epochs=1, # number of training epochs
per_device_train_batch_size=8, # batch size for training #32
per_device_eval_batch_size=8,  # batch size for evaluation #64
save_steps=100, # after # steps model is saved
warmup_steps=500,# number of warmup steps for learning rate scheduler
prediction_loss_only=True,
metric_for_best_model = "eval_loss",
load_best_model_at_end = True,
evaluation_strategy="epoch",
)
< /code>
training_args

- это учебные аргументы, созданные для обучения модели.
Тренер:

Код: Выделить всё

trainer = Trainer(
model=gpt2_model,
args=training_args,
data_collator=data_collator,
train_dataset=train_dataset,
eval_dataset=test_dataset,
callbacks = [early_stop_callback],
)
early_stop_callback = EarlyStoppingCallback(early_stopping_patience  = 3)
< /code>
Training:
trainer.train()
trainer.save_model(model_path)
< /code>
Here, the training is done for only 1 epoch in 4 GPUS using ml.p3.8xlarge instance.
The training is done by torch-distribution like below,
python -m torch.distributed.launch finetuning_gpt2_script.py
< /code>
While training at the end of the epoch, observed the below error,
RuntimeError: Input tensor at index 3 has invalid shape [2, 2, 16, 128, 64] but expected [2, 4, 16, 128, 64]

Является ли RuntimeError из-за того, как Train_dataset и test_dataset построен с использованием TextData ?>

Подробнее здесь: https://stackoverflow.com/questions/658 ... 128-64-but

1752001065

Anonymous

 Ошибка времени выполнения при создании предварительной модели GPT2 -Medium с использованием библиотеки gurgingface в SageMaker - Ml.p3.8xlarge экземпляр. 
menetuning_gpt2_script.py  содержит ниже, 
библиотеки: 
[code]from transformers import Trainer, TrainingArguments
from transformers import EarlyStoppingCallback
from transformers import GPT2LMHeadModel, GPT2Tokenizer
from transformers import TextDataset,DataCollatorForLanguageModeling
< /code>
Предварительные модели: < /p>
gpt2_model = GPT2LMHeadModel.from_pretrained("gpt2-medium")
gpt2_tokenizer = GPT2Tokenizer.from_pretrained("gpt2-medium")
< /code>
Поездка и тестовые данные Конструкция: < /p>
train_dataset = TextDataset(
tokenizer=gpt2_tokenizer,
file_path=train_path,
block_size=128)

test_dataset = TextDataset(
tokenizer=gpt2_tokenizer,
file_path=test_path,
block_size=128)

data_collator = DataCollatorForLanguageModeling(
tokenizer=gpt2_tokenizer, mlm=False,
)
< /code>
train_path[/code] & test_path  - неструктурированный файл текстовых данных размером 1,45 млн. и 200 тыс. Линий данных 
Учебные аргументы: 
[code]training_args = TrainingArguments(
output_dir="./gpt2-finetuned-models", #The output directory
overwrite_output_dir=True, #overwrite the content of the output directory
num_train_epochs=1, # number of training epochs
per_device_train_batch_size=8, # batch size for training #32
per_device_eval_batch_size=8,  # batch size for evaluation #64
save_steps=100, # after # steps model is saved
warmup_steps=500,# number of warmup steps for learning rate scheduler
prediction_loss_only=True,
metric_for_best_model = "eval_loss",
load_best_model_at_end = True,
evaluation_strategy="epoch",
)
< /code>
training_args[/code] - это учебные аргументы, созданные для обучения модели. 
Тренер: 
[code]trainer = Trainer(
model=gpt2_model,
args=training_args,
data_collator=data_collator,
train_dataset=train_dataset,
eval_dataset=test_dataset,
callbacks = [early_stop_callback],
)
early_stop_callback = EarlyStoppingCallback(early_stopping_patience  = 3)
< /code>
Training:
trainer.train()
trainer.save_model(model_path)
< /code>
Here, the training is done for only 1 epoch in 4 GPUS using ml.p3.8xlarge instance.
The training is done by torch-distribution like below,
python -m torch.distributed.launch finetuning_gpt2_script.py
< /code>
While training at the end of the epoch, observed the below error,
RuntimeError: Input tensor at index 3 has invalid shape [2, 2, 16, 128, 64] but expected [2, 4, 16, 128, 64][/code] 

 Является ли RuntimeError  из-за того, как Train_dataset  и test_dataset  построен с использованием TextData ?> 

Подробнее здесь: [url]https://stackoverflow.com/questions/65822014/runtimeerror-input-tensor-at-index-3-has-invalid-shape-2-2-16-128-64-but[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Факел: как вставить тензор в другой тензор в определенном индексе

Последнее сообщение Anonymous « 26 май 2025, 21:39
Добавлено в форуме Python

Anonymous » 26 май 2025, 21:39 » в форуме Python

Я имею мягкий тензор x с формой (b, t1, c) и мягким тензором y с формой (b, t2, c) , я также знаю длину образца l для x . Я хочу вставить образцы x в y при определенном индексе i и накладке в конце. inputs = []
for i in range(X.shape ):
input =...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
26 май 2025, 21:39
RuntimeError: тензор веса должен быть определен либо для всех 1000 классов, либо ни для одного класса, но получен тензор

Последнее сообщение Anonymous « 10 ноя 2024, 15:41
Добавлено в форуме Python

Anonymous » 10 ноя 2024, 15:41 » в форуме Python

Я пытаюсь использовать VGG16 для ** набора данных из 5 классов**.
Я уже добавил 5 новых слоев, чтобы настроить вывод для logit как 5 .
model = models.vgg16(pretrained=True) #Загружает модель vgg16, предварительно обученную на наборе данных...

0 Ответы

32 Просмотры

Последнее сообщение Anonymous
10 ноя 2024, 15:41
RuntimeError: Ожидается, что тензор для индексов аргумента № 1 будет иметь один из следующих скалярных типов: Long, Int;

Последнее сообщение Anonymous « 08 янв 2025, 20:35
Добавлено в форуме Python

Anonymous » 08 янв 2025, 20:35 » в форуме Python

Я хочу применить интегрированные градиенты в качестве метода XAI к предварительно обученной модели обнимающегося лица. Входными данными являются обзоры фильмов, и я использую Captum для создания атрибуции для каждого токена.
Но мой код не...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
08 янв 2025, 20:35
CS1026: ) Ожидается | CS1002: ; ожидается | CS1513: } ожидается

Последнее сообщение Anonymous « 12 ноя 2024, 22:46
Добавлено в форуме C#

Anonymous » 12 ноя 2024, 22:46 » в форуме C#

private void Context_EndRequest(object sender, EventArgs e)
{
var context = ((HttpApplication)sender).Context;
if (context.Items is IServiceScope scope)
{
scope.Dispose();
}
}

Когда я пытаюсь построить свой проект (Framework 4.7.2), я получаю...

0 Ответы

81 Просмотры

Последнее сообщение Anonymous
12 ноя 2024, 22:46
MPI вычисляет тензор * матрицу, используя тензор, определенный глобально с использованием библиотеки Global Arrays

Последнее сообщение Anonymous « 17 дек 2024, 11:03
Добавлено в форуме C++

Anonymous » 17 дек 2024, 11:03 » в форуме C++

Я пытаюсь использовать библиотеку Global Arrays с MPI на C++, поскольку она позволяет определять переменные большого размера только один раз публично и в то же время доступны для доступа всем процессам MPI. Поэтому я создал небольшую программу,...

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
17 дек 2024, 11:03

Вернуться в «Python»