Добавление раннего стоппинга () к ошибке Transformers Trainer ()

Добавление раннего стоппинга () к ошибке Transformers Trainer () ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Добавление раннего стоппинга () к ошибке Transformers Trainer ()

Цитата

Сообщение Anonymous » 20 июл 2025, 21:20

Я использую код для точной настройки модели LORA: < /p>
bnb_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_compute_dtype=torch.float16,
bnb_4bit_use_double_quant=True,
bnb_4bit_quant_type="nf4",
)

model = AutoModelForCausalLM.from_pretrained(
"tiiuae/falcon-rw-1b",
quantization_config=bnb_config,
device_map={"": torch.cuda.current_device()},
)

tokenizer = AutoTokenizer.from_pretrained("zhihan1996/DNABERT-2-117M", trust_remote_code=True)

peft_config = LoraConfig(
task_type=TaskType.CAUSAL_LM,
inference_mode=False,
r=8,
lora_alpha=16,
lora_dropout=0.05,
bias="none"
)

model = get_peft_model(model, peft_config)

dataset = load_from_disk('tokenized_dataset_50_percent')

train_size = int(0.8 * len(dataset["train"]))
test_size = len(dataset[ "train"]) - train_size
train_set, val_set = torch.utils.data.random_split(dataset["train"], [train_size, test_size])

data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)

training_args = TrainingArguments(
output_dir="./falcon-dna-lora",
per_device_train_batch_size=4,
gradient_accumulation_steps=32,
num_train_epochs=1,
fp16=True,
save_total_limit=2,
logging_steps=10,
save_steps=500,
learning_rate=2e-4,
weight_decay=0.01,
report_to="none"
)

trainer = Trainer(
model=model,
args=training_args,
train_dataset=train_set,
eval_dataset=val_set,
data_collator=data_collator,
tokenizer=tokenizer,
)
print("Trainable params:", sum(p.numel() for p in model.parameters() if p.requires_grad))

trainable_params = []
total_params = 0
trainable_count = 0

for name, param in model.named_parameters():
total_params += param.numel()
if param.requires_grad:
trainable_count += param.numel()
trainable_params.append(name)

print(f"Total parameters: {total_params:,}")
print(f"Trainable parameters: {trainable_count:,}")
print(f"Percentage trainable: {100 * trainable_count / total_params:.4f}%")
print(f"Trainable layers: {trainable_params}")

trainer.train()
trainer.save_model("falcon-rw-1b-50percent-checkpoint")
< /code>
Метод Trainer () работает нормально, а модель тренируется правильно. Проблема начинается, если я добавляю ранний обратный вызов, выполняя следующие изменения: < /p>
training_args = TrainingArguments(
output_dir="./falcon-dna-lora",
per_device_train_batch_size=4,
gradient_accumulation_steps=32,
num_train_epochs=1,
fp16=True,
save_total_limit=2,
logging_steps=10,
save_steps=500,
weight_decay=0.01,
report_to="none",
eval_strategy="steps",
eval_steps=500,
load_best_model_at_end=True,
metric_for_best_model="eval_loss",
greater_is_better=False,
learning_rate=2e-4,
)

trainer = Trainer(
model=model,
args=training_args,
train_dataset=train_set,
eval_dataset=val_set,
data_collator=data_collator,
tokenizer=tokenizer,
callbacks=[EarlyStoppingCallback(early_stopping_patience=3)]
)
< /code>
После этого я получаю следующую ошибку: < /p>
RuntimeError: CUDA error: an illegal memory access was encountered
CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1
Compile with TORCH_USE_CUDA_DSA to enable device-side assertions.
< /code>
исчерпали идеи, и ни одна из них не работает. Можете ли вы предложить, в чем может быть проблема с этим подходом?
Заранее спасибо.

Подробнее здесь: https://stackoverflow.com/questions/797 ... iner-error

1753035620

Anonymous

 Я использую код для точной настройки модели LORA: < /p>
bnb_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_compute_dtype=torch.float16,
bnb_4bit_use_double_quant=True,
bnb_4bit_quant_type="nf4",
)

model = AutoModelForCausalLM.from_pretrained(
"tiiuae/falcon-rw-1b",
quantization_config=bnb_config,
device_map={"": torch.cuda.current_device()},
)

tokenizer = AutoTokenizer.from_pretrained("zhihan1996/DNABERT-2-117M", trust_remote_code=True)

peft_config = LoraConfig(
task_type=TaskType.CAUSAL_LM,
inference_mode=False,
r=8,
lora_alpha=16,
lora_dropout=0.05,
bias="none"
)

model = get_peft_model(model, peft_config)

dataset = load_from_disk('tokenized_dataset_50_percent')

train_size = int(0.8 * len(dataset["train"]))
test_size = len(dataset[ "train"]) - train_size
train_set, val_set = torch.utils.data.random_split(dataset["train"], [train_size, test_size])

data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)

training_args = TrainingArguments(
output_dir="./falcon-dna-lora",
per_device_train_batch_size=4,
gradient_accumulation_steps=32,
num_train_epochs=1,
fp16=True,
save_total_limit=2,
logging_steps=10,
save_steps=500,
learning_rate=2e-4,
weight_decay=0.01,
report_to="none"
)

trainer = Trainer(
model=model,
args=training_args,
train_dataset=train_set,
eval_dataset=val_set,
data_collator=data_collator,
tokenizer=tokenizer,
)
print("Trainable params:", sum(p.numel() for p in model.parameters() if p.requires_grad))

trainable_params = []
total_params = 0
trainable_count = 0

for name, param in model.named_parameters():
total_params += param.numel()
if param.requires_grad:
trainable_count += param.numel()
trainable_params.append(name)

print(f"Total parameters: {total_params:,}")
print(f"Trainable parameters: {trainable_count:,}")
print(f"Percentage trainable: {100 * trainable_count / total_params:.4f}%")
print(f"Trainable layers: {trainable_params}")

trainer.train()
trainer.save_model("falcon-rw-1b-50percent-checkpoint")
< /code>
Метод Trainer () работает нормально, а модель тренируется правильно. Проблема начинается, если я добавляю ранний обратный вызов, выполняя следующие изменения: < /p>
training_args = TrainingArguments(
output_dir="./falcon-dna-lora",
per_device_train_batch_size=4,
gradient_accumulation_steps=32,
num_train_epochs=1,
fp16=True,
save_total_limit=2,
logging_steps=10,
save_steps=500,
weight_decay=0.01,
report_to="none",
eval_strategy="steps",
eval_steps=500,
load_best_model_at_end=True,
metric_for_best_model="eval_loss",
greater_is_better=False,
learning_rate=2e-4,
)

trainer = Trainer(
model=model,
args=training_args,
train_dataset=train_set,
eval_dataset=val_set,
data_collator=data_collator,
tokenizer=tokenizer,
callbacks=[EarlyStoppingCallback(early_stopping_patience=3)]
)
< /code>
После этого я получаю следующую ошибку: < /p>
RuntimeError: CUDA error: an illegal memory access was encountered
CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1
Compile with TORCH_USE_CUDA_DSA to enable device-side assertions.
< /code>
исчерпали идеи, и ни одна из них не работает. Можете ли вы предложить, в чем может быть проблема с этим подходом? 
Заранее спасибо.  

Подробнее здесь: [url]https://stackoverflow.com/questions/79708270/adding-earlystopping-to-transformers-trainer-error[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Добавление раннего стоппинга () к ошибке Transformers Trainer ()

Последнее сообщение Anonymous « 21 июл 2025, 00:58
Добавлено в форуме Python

Anonymous » 21 июл 2025, 00:58 » в форуме Python

Я использую код для точной настройки модели LORA:
bnb_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_compute_dtype=torch.float16,
bnb_4bit_use_double_quant=True,
bnb_4bit_quant_type= nf4 ,
)

model = AutoModelForCausalLM.from_pretrained(...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
21 июл 2025, 00:58
Добавление раннего стоппинга () к ошибке Transformers Trainer ()

Последнее сообщение Anonymous « 21 июл 2025, 03:17
Добавлено в форуме Python

Anonymous » 21 июл 2025, 03:17 » в форуме Python

Я использую этот код для точной настройки модели LORA:
bnb_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_compute_dtype=torch.float16,
bnb_4bit_use_double_quant=True,
bnb_4bit_quant_type= nf4 ,
)

model =...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
21 июл 2025, 03:17
Ошибка пакета Python Accelerate при использовании Trainer from Transformers

Последнее сообщение Anonymous « 10 май 2024, 04:38
Добавлено в форуме Python

Anonymous » 10 май 2024, 04:38 » в форуме Python

Я пробую это руководство по «Обнимающему лицу»
Я пытаюсь использовать трейнер для тренировки своего режима. На этом этапе возникают ошибки кода:
from datasets import load_dataset
from transformers import AutoTokenizer,...

0 Ответы

35 Просмотры

Последнее сообщение Anonymous
10 май 2024, 04:38
Ошибка: не удалось импортировать Transformers.trainer из -за следующей ошибки (...): без модуля с именем 'multiprocess.p

Последнее сообщение Anonymous « 30 апр 2025, 13:42
Добавлено в форуме Python

Anonymous » 30 апр 2025, 13:42 » в форуме Python

Я пытаюсь «от Transformers Import ..., Trainer, TrainingArguments, ...», но затем получить такую ошибку
Файл C: \ python312 \ lib \ site-packages \ transformers \ utils \ import_utils.py , Line 1969, в _get_module
raintror (
runtime runtiror....

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
30 апр 2025, 13:42
Ошибка: не удалось импортировать Transformers.trainer из -за следующей ошибки (...): без модуля с именем 'multiprocess.p

Последнее сообщение Anonymous « 30 апр 2025, 14:41
Добавлено в форуме Python

Anonymous » 30 апр 2025, 14:41 » в форуме Python

Я пытаюсь «от Transformers Import ..., Trainer, TrainingArguments, ...», но затем получить такую ошибку
Файл C: \ python312 \ lib \ site-packages \ transformers \ utils \ import_utils.py , Line 1969, в _get_module
raintror (
runtime runtiror....

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
30 апр 2025, 14:41

Вернуться в «Python»