Потеря-это «NAN», когда модель NLI с тонкой настройкой (обе Roberta/Bart)

Потеря-это «NAN», когда модель NLI с тонкой настройкой (обе Roberta/Bart) ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Потеря-это «NAN», когда модель NLI с тонкой настройкой (обе Roberta/Bart)

Цитата

Сообщение Anonymous » 01 сен 2025, 08:51

Я использую библиотеку Transformer's Transformer's Huggingface, и я пытаюсь точно настроить предварительно обученную модель NLI (

Код: Выделить всё

ynie/roberta-large-snli_mnli_fever_anli_R1_R2_R3-nli

) в наборе данных около 276.000 пар гипотезы-предыдущих. Я следую инструкциям от документов здесь и здесь. У меня сложилось впечатление, что тонкая настройка работает (он выполняет обучение и сохраняет контрольно-пропускные пункты), но Trainer.train () и trainer.evaluate () return "nan" для потери.
Я пробовал:

и facebook/bart-large-mnli , чтобы убедиться, что это не связано с конкретной моделью, но я понял проблему для обеих моделей
Я попробовал совет. Файл конфигурации не решает проблему. (Я думаю, что моя проблема отличается, потому что модели уже настраиваются в NLI в моем случае)
Я пробовал много разных способов изменения своих входных данных, потому что я подозревал, что с моими входными данными может возникнуть проблема, но я также не смог решить это. Значение прогнозирования всегда кажется «0» (влечение) в 100% случаев (см. Напечатанный вывод в коде ниже). Это явно ошибка. Я думаю, что источником для этого является то, что логиты, которые модель, кажется, возвращает во время обучения, являются Torch.tensor ([[np.nan, np.nan, np.nan]]) и когда вы применяете .argmax (-1) к этому, вы получаете Torch.tensor (0). Большая загадка для меня заключается в том, почему логиты станут «NAN», потому что модель не делает этого, когда я использую одни и те же входные данные только за пределами тренера.
=> Кто -нибудь знает, откуда поступают эти проблемы? Смотрите мой код ниже.

Заранее большое спасибо за любое предложение!

Код: Выделить всё

### load model & tokenize
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

max_length = 256
hg_model_hub_name = "ynie/roberta-large-snli_mnli_fever_anli_R1_R2_R3-nli"
# also tried: hg_model_hub_name = "facebook/bart-large-mnli"
tokenizer = AutoTokenizer.from_pretrained(hg_model_hub_name)
model = AutoModelForSequenceClassification.from_pretrained(hg_model_hub_name)
model.config

device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Device: {device}")
if device == "cuda":
model = model.half()
model.to(device)
model.train();

#...  some data preprocessing

encodings_train = tokenizer(premise_train, hypothesis_train, return_tensors="pt", max_length=max_length,
return_token_type_ids=True, truncation=False, padding=True)
encodings_val = tokenizer(premise_val, hypothesis_val, return_tensors="pt", max_length=max_length,
return_token_type_ids=True, truncation=False, padding=True)
encodings_test = tokenizer(premise_test, hypothesis_test, return_tensors="pt", max_length=max_length,
return_token_type_ids=True, truncation=False, padding=True)

### create pytorch dataset object
class XDataset(torch.utils.data.Dataset):
def __init__(self, encodings, labels):
self.encodings = encodings
self.labels = labels
def __getitem__(self, idx):
item = {key: torch.as_tensor(val[idx]) for key, val in self.encodings.items()}
#item = {key: torch.as_tensor(val[idx]).to(device) for key, val in self.encodings.items()}
item['labels'] = torch.as_tensor(self.labels[idx])
#item['labels'] = self.labels[idx]
return item
def __len__(self):
return len(self.labels)

dataset_train = XDataset(encodings_train, label_train)
dataset_val = XDataset(encodings_val, label_val)
dataset_test = XDataset(encodings_test, label_test)

# compute metrics with trainer
from sklearn.metrics import accuracy_score, precision_recall_fscore_support
def compute_metrics(pred):
labels = pred.label_ids
print(labels)
preds = pred.predictions.argmax(-1)
print(preds)
precision, recall, f1, _ = precision_recall_fscore_support(labels, preds, average='binary', pos_label=0)
acc = accuracy_score(labels, preds)
return {
'accuracy': acc,
'f1': f1,
'precision': precision,
'recall': recall
}

## training
from transformers import Trainer, TrainingArguments

# https://huggingface.co/transformers/main_classes/trainer.html#transformers.TrainingArguments
training_args = TrainingArguments(
output_dir='./results',          # output directory
num_train_epochs=1,              # total number of training epochs
per_device_train_batch_size=8,  # batch size per device during training
per_device_eval_batch_size=8,   # batch size for evaluation
warmup_steps=500,                # number of warmup steps for learning rate scheduler
weight_decay=0.01,               # strength of weight decay
logging_dir='./logs',            # directory for storing logs
logging_steps=100,
)

trainer = Trainer(
model=model,                         # the instantiated 🤗 Transformers model to be trained
args=training_args,                  # training arguments, defined above
train_dataset=dataset_train,         # training dataset
eval_dataset=dataset_val             # evaluation dataset
)

trainer.train()
# output: TrainOutput(global_step=181, training_loss=nan)
trainer.evaluate()
# output:
[2 2 2 0 0 2 2 2 0 2 0 0 2 2 2 2 0 2 0 2 2 2 2 0 2 0 2 0 0 2 0 0 2 0 0 0 2
0 2 0 0 0 0 0 2 0 0 2 2 2 0 2 2 2 2 2 0 0 0 0 2 0 0 0 2 2 0 0 0 2 0 0 0 2
2 0 2 0 0 2 2 2 0 2 2 0 0 0 0 0 0 0 2 0 0 0 0 2 0 2 2 0 2 0 0 2 2 2 2 2 2
2 0 0 0 0 2 0 0 2 0 0 0 0 2 2 2 0 0 0 0 0 2 0 0 2 0 2 0 2 0 2 0 0 2 2 0 0
2 2 2 2 2 2 0 0 2 2 2 2 0 2 0 0 2 2 2 0 0 2 0 2 0 2 0 0 0 0 0 0 2 0 0 2 2
0 2 2 2 0 2 2 0 2 2 2 2 2 2 0 0 2 0 0 2 2 0 0 0 2 0 2 2 2 0 0 0 0 0 0 0 0
2 0 2 2 2 0 2 0 0 2 0 2 2 0 0 0 0 2 2 2 0 0 0 2 2 2 2 0 2 0 2 2 2]
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]

{'epoch': 1.0,
'eval_accuracy': 0.5137254901960784,
'eval_f1': 0.6787564766839378,
'eval_loss': nan,
'eval_precision': 0.5137254901960784,
'eval_recall': 1.0}

edit: Я также открыл проблему GitHub с более подробным описанием проблемы здесь: https://github.com/huggingface/transformers/issues/9160

Подробнее здесь: https://stackoverflow.com/questions/653 ... berta-bart

1756705882

Anonymous

 Я использую библиотеку Transformer's Transformer's Huggingface, и я пытаюсь точно настроить предварительно обученную модель NLI ([code]ynie/roberta-large-snli_mnli_fever_anli_R1_R2_R3-nli[/code]) в наборе данных около 276.000 пар гипотезы-предыдущих. Я следую инструкциям от документов здесь и здесь. У меня сложилось впечатление, что тонкая настройка работает (он выполняет обучение и сохраняет контрольно-пропускные пункты), но Trainer.train ()  и trainer.evaluate ()  return "nan" для потери. 
[b] Я пробовал: [/b] 
[list]
[*] и facebook/bart-large-mnli , чтобы убедиться, что это не связано с конкретной моделью, но я понял проблему для обеих моделей
[*] Я попробовал совет. Файл конфигурации не решает проблему. (Я думаю, что моя проблема отличается, потому что модели уже настраиваются в NLI в моем случае)
[*] Я пробовал много разных способов изменения своих входных данных, потому что я подозревал, что с моими входными данными может возникнуть проблема, но я также не смог решить это. Значение прогнозирования всегда кажется «0» (влечение) в 100% случаев (см. Напечатанный вывод в коде ниже). Это явно ошибка. Я думаю, что источником для этого является то, что логиты, которые модель, кажется, возвращает во время обучения, являются Torch.tensor ([[np.nan, np.nan, np.nan]])  и когда вы применяете .argmax (-1)  к этому, вы получаете Torch.tensor (0). Большая загадка для меня заключается в том, почему логиты станут «NAN», потому что модель не делает этого, когда я использую одни и те же входные данные только за пределами тренера.
=> Кто -нибудь знает, откуда поступают эти проблемы? Смотрите мой код ниже. 
[/list]
Заранее большое спасибо за любое предложение![code]### load model & tokenize
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

max_length = 256
hg_model_hub_name = "ynie/roberta-large-snli_mnli_fever_anli_R1_R2_R3-nli"
# also tried: hg_model_hub_name = "facebook/bart-large-mnli"
tokenizer = AutoTokenizer.from_pretrained(hg_model_hub_name)
model = AutoModelForSequenceClassification.from_pretrained(hg_model_hub_name)
model.config

device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Device: {device}")
if device == "cuda":
model = model.half()
model.to(device)
model.train();

#...  some data preprocessing

encodings_train = tokenizer(premise_train, hypothesis_train, return_tensors="pt", max_length=max_length,
return_token_type_ids=True, truncation=False, padding=True)
encodings_val = tokenizer(premise_val, hypothesis_val, return_tensors="pt", max_length=max_length,
return_token_type_ids=True, truncation=False, padding=True)
encodings_test = tokenizer(premise_test, hypothesis_test, return_tensors="pt", max_length=max_length,
return_token_type_ids=True, truncation=False, padding=True)

### create pytorch dataset object
class XDataset(torch.utils.data.Dataset):
def __init__(self, encodings, labels):
self.encodings = encodings
self.labels = labels
def __getitem__(self, idx):
item = {key: torch.as_tensor(val[idx]) for key, val in self.encodings.items()}
#item = {key: torch.as_tensor(val[idx]).to(device) for key, val in self.encodings.items()}
item['labels'] = torch.as_tensor(self.labels[idx])
#item['labels'] = self.labels[idx]
return item
def __len__(self):
return len(self.labels)

dataset_train = XDataset(encodings_train, label_train)
dataset_val = XDataset(encodings_val, label_val)
dataset_test = XDataset(encodings_test, label_test)

# compute metrics with trainer
from sklearn.metrics import accuracy_score, precision_recall_fscore_support
def compute_metrics(pred):
labels = pred.label_ids
print(labels)
preds = pred.predictions.argmax(-1)
print(preds)
precision, recall, f1, _ = precision_recall_fscore_support(labels, preds, average='binary', pos_label=0)
acc = accuracy_score(labels, preds)
return {
'accuracy': acc,
'f1': f1,
'precision': precision,
'recall': recall
}

## training
from transformers import Trainer, TrainingArguments

# https://huggingface.co/transformers/main_classes/trainer.html#transformers.TrainingArguments
training_args = TrainingArguments(
output_dir='./results',          # output directory
num_train_epochs=1,              # total number of training epochs
per_device_train_batch_size=8,  # batch size per device during training
per_device_eval_batch_size=8,   # batch size for evaluation
warmup_steps=500,                # number of warmup steps for learning rate scheduler
weight_decay=0.01,               # strength of weight decay
logging_dir='./logs',            # directory for storing logs
logging_steps=100,
)

trainer = Trainer(
model=model,                         # the instantiated 🤗 Transformers model to be trained
args=training_args,                  # training arguments, defined above
train_dataset=dataset_train,         # training dataset
eval_dataset=dataset_val             # evaluation dataset
)

trainer.train()
# output: TrainOutput(global_step=181, training_loss=nan)
trainer.evaluate()
# output:
[2 2 2 0 0 2 2 2 0 2 0 0 2 2 2 2 0 2 0 2 2 2 2 0 2 0 2 0 0 2 0 0 2 0 0 0 2
0 2 0 0 0 0 0 2 0 0 2 2 2 0 2 2 2 2 2 0 0 0 0 2 0 0 0 2 2 0 0 0 2 0 0 0 2
2 0 2 0 0 2 2 2 0 2 2 0 0 0 0 0 0 0 2 0 0 0 0 2 0 2 2 0 2 0 0 2 2 2 2 2 2
2 0 0 0 0 2 0 0 2 0 0 0 0 2 2 2 0 0 0 0 0 2 0 0 2 0 2 0 2 0 2 0 0 2 2 0 0
2 2 2 2 2 2 0 0 2 2 2 2 0 2 0 0 2 2 2 0 0 2 0 2 0 2 0 0 0 0 0 0 2 0 0 2 2
0 2 2 2 0 2 2 0 2 2 2 2 2 2 0 0 2 0 0 2 2 0 0 0 2 0 2 2 2 0 0 0 0 0 0 0 0
2 0 2 2 2 0 2 0 0 2 0 2 2 0 0 0 0 2 2 2 0 0 0 2 2 2 2 0 2 0 2 2 2]
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]

{'epoch': 1.0,
'eval_accuracy': 0.5137254901960784,
'eval_f1': 0.6787564766839378,
'eval_loss': nan,
'eval_precision': 0.5137254901960784,
'eval_recall': 1.0}
[/code]
[b] edit: [/b] Я также открыл проблему GitHub с более подробным описанием проблемы здесь: https://github.com/huggingface/transformers/issues/9160 

Подробнее здесь: [url]https://stackoverflow.com/questions/65332165/loss-is-nan-when-fine-tuning-huggingface-nli-model-both-roberta-bart[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Является ли number ("nan") = NAN, потому что JS распознает «NAN» как значение типа номера или потому, что это строка, а

Последнее сообщение Anonymous « 30 апр 2025, 09:46
Добавлено в форуме Javascript

Anonymous » 30 апр 2025, 09:46 » в форуме Javascript

Например, число («бесконечность») = бесконечность, потому что он распознает его как число типов, поэтому мне было интересно, если номер («NAN») = NAN по той же причине, по которой число («картофель») = NAN или потому, что он распознает его как...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
30 апр 2025, 09:46
Огромная потеря тренировок при тонкой настройке Deberta-V3-Small с тренером Huggingface + Lora

Последнее сообщение Anonymous « 18 авг 2025, 02:49
Добавлено в форуме Python

Anonymous » 18 авг 2025, 02:49 » в форуме Python

Я пытаюсь точно настроить Microsoft/deberta-v3-small с адаптерами Trainer + Peft Lora для задачи бинарной классификации (истина против транскриптов Lie).
Мой набор данных из базы данных MU3D. Это маленький (~ 320 образцов), а этикетки - 0/1 с 1 =...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
18 авг 2025, 02:49
Огромная потеря тренировок при тонкой настройке Deberta-V3-Small с тренером Huggingface + Lora

Последнее сообщение Anonymous « 18 авг 2025, 16:03
Добавлено в форуме Python

Anonymous » 18 авг 2025, 16:03 » в форуме Python

Я пытаюсь точно настроить Microsoft/deberta-v3-small с адаптерами Trainer + Peft Lora для задачи бинарной классификации (истина против транскриптов Lie).
Мой набор данных из базы данных MU3D. Это маленький (~ 320 образцов), а этикетки - 0/1 с 1 =...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
18 авг 2025, 16:03
Проблемы с тонкой настройкой чатгпта для использования его в чат-боте колледжа

Последнее сообщение Anonymous « 06 окт 2024, 15:04
Добавлено в форуме Python

Anonymous » 06 окт 2024, 15:04 » в форуме Python

Я не могу выполнить тонкую настройку... все методы я не могу их применить
Мне нужен надежный метод
Я пробовал много методов с YouTube, но
все они — ошибки git.
Мне нужен код для использования в Google Colab.
Или предоставьте мне сайты, которые...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
06 окт 2024, 15:04
Проблема с тонкой настройкой ламы с несколькими графическими процессорами. Ошибка выполнения: ожидалось, что все тензоры

Последнее сообщение Anonymous « 28 ноя 2024, 13:55
Добавлено в форуме Python

Anonymous » 28 ноя 2024, 13:55 » в форуме Python

Я работаю над задачей по тонкой настройке ламы. Когда я тренируюсь на одном графическом процессоре, программа работает нормально.
import os
os.environ = 0
os.environ = false
device = torch.device( cuda:0 if torch.cuda.is_available() else cpu )...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
28 ноя 2024, 13:55

Вернуться в «Python»