OutOfMemory при обучении предварительно обученной модели BERT для задачи классификации токенов

OutOfMemory при обучении предварительно обученной модели BERT для задачи классификации токенов ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

OutOfMemory при обучении предварительно обученной модели BERT для задачи классификации токенов

Цитата

Сообщение Anonymous » 26 окт 2024, 08:58

Я использую предварительно обученную BertForTokenClassification для задачи распознавания вложенных именованных объектов. Чтобы определить вложенные объекты, я использую метод нескольких меток. На выходе модель возвращает 3 списка логитов, по одному для каждого уровня, которые в конечном итоге объединяются вместе. Я запускаю процесс обучения на Linux Ubuntu 22.04 с 16 ГБ ОЗУ.
Проблема в том, что процесс обучения прерывается из-за OutOfMemory. Неважно, какой размер пакета: 1 или 16. Потребление памяти постоянно растет и процесс убивается. Чем меньше размер пакета, тем позже будет получен окончательный результат.
Класс модели:

Код: Выделить всё

import torch.nn as nn
from transformers import, BertForTokenClassification

class NestedNERMultiLabelModel(nn.Module):
def __init__(self, model_name, num_labels_level1, num_labels_level2, num_labels_level3, dropout):
super(NestedNERMultiLabelModel, self).__init__()

self.bert = BertForTokenClassification.from_pretrained(model_name, hidden_dropout_prob=dropout)

self.classifier_level1 = nn.Linear(self.bert.config.hidden_size, num_labels_level1)

self.classifier_level2 = nn.Linear(self.bert.config.hidden_size, num_labels_level2)

self.classifier_level3 = nn.Linear(self.bert.config.hidden_size, num_labels_level3)

def forward(self, input_ids, attention_mask=None):

outputs = self.bert(input_ids, attention_mask=attention_mask, output_hidden_states=True)
out = outputs.hidden_states[-1]

logits_level1 = self.classifier_level1(out)

logits_level2 = self.classifier_level2(out)

logits_level3 = self.classifier_level3(out)

return logits_level1, logits_level2, logits_level3

Обучающий модуль:

Код: Выделить всё

import torch
from transformers import get_linear_schedule_with_warmup

from NestedNERMultiLabelModel import NestedNERMultiLabelModel
import torch.nn.functional as F
from tqdm.auto import tqdm

class Trainer:

def __init__(self, config, preprocessor):
self.config = config
self.preprocessor = preprocessor
self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
self.model = NestedNERMultiLabelModel(config["bert_model_name"], config["num_labels"], config["num_labels"], config["num_labels"], config['dropout_rate'])
self.optimizer = torch.optim.AdamW(
self.model.parameters(),
lr=config["learning_rate"],
weight_decay=self.config["weight_decay"]
)
self.start_epoch = 0

self.model = self.model.to(self.device)
self.epochs = config["num_epochs"]

def train(self, train_loader, valid_loader):

num_training_steps = len(train_loader) * (self.epochs - self.start_epoch)

scheduler = get_linear_schedule_with_warmup(
self.optimizer,
num_warmup_steps=500,
num_training_steps=num_training_steps
)

best_loss = 1000
with tqdm(range(num_training_steps)) as progress_bar:
for epoch in range(self.start_epoch, self.epochs):

train_loss = 0
self.model.train()

for input_ids, attention_mask, labels in train_loader:
input_ids, attention_mask = input_ids.to(self.device), attention_mask.to(self.device)

self.optimizer.zero_grad()
labels_pred = self.model(input_ids, attention_mask)

total_loss = 0
for i in range(3):
loss = F.cross_entropy(labels_pred[i].view(-1, 8), labels[:, i].reshape(-1), ignore_index=0)
total_loss += loss

# Update model weights
total_loss.backward()
train_loss += total_loss

torch.nn.utils.clip_grad_norm_(self.model.parameters(), max_norm=self.config["grad_norm"])
self.optimizer.step()
scheduler.step()
progress_bar.update(1)

train_loss = train_loss / num_training_steps

with torch.no_grad():
self.model.eval()
eval_loss = self.evaluate(self.model, valid_loader)
print(f'Epoch: {epoch} | train_loss: {train_loss:

Подробнее здесь: [url]https://stackoverflow.com/questions/79126798/outofmemory-while-training-pre-trained-bert-model-for-token-classification-task[/url]

1729922327

Anonymous

Я использую предварительно обученную [b]BertForTokenClassification[/b] для задачи распознавания вложенных именованных объектов. Чтобы определить вложенные объекты, я использую метод нескольких меток. На выходе модель возвращает 3 списка логитов, по одному для каждого уровня, которые в конечном итоге объединяются вместе. Я запускаю процесс обучения на Linux Ubuntu 22.04 с 16 ГБ ОЗУ.
Проблема в том, что процесс обучения прерывается из-за [b]OutOfMemory[/b]. Неважно, какой размер пакета: 1 или 16. Потребление памяти постоянно растет и процесс убивается.  Чем меньше размер пакета, тем позже будет получен окончательный результат.
Класс модели:
[code]import torch.nn as nn
from transformers import, BertForTokenClassification

class NestedNERMultiLabelModel(nn.Module):
def __init__(self, model_name, num_labels_level1, num_labels_level2, num_labels_level3, dropout):
super(NestedNERMultiLabelModel, self).__init__()

self.bert = BertForTokenClassification.from_pretrained(model_name, hidden_dropout_prob=dropout)

self.classifier_level1 = nn.Linear(self.bert.config.hidden_size, num_labels_level1)

self.classifier_level2 = nn.Linear(self.bert.config.hidden_size, num_labels_level2)

self.classifier_level3 = nn.Linear(self.bert.config.hidden_size, num_labels_level3)

def forward(self, input_ids, attention_mask=None):

outputs = self.bert(input_ids, attention_mask=attention_mask, output_hidden_states=True)
out = outputs.hidden_states[-1]

logits_level1 = self.classifier_level1(out)

logits_level2 = self.classifier_level2(out)

logits_level3 = self.classifier_level3(out)

return logits_level1, logits_level2, logits_level3
[/code]
Обучающий модуль:
[code]import torch
from transformers import get_linear_schedule_with_warmup

from NestedNERMultiLabelModel import NestedNERMultiLabelModel
import torch.nn.functional as F
from tqdm.auto import tqdm

class Trainer:

def __init__(self, config, preprocessor):
self.config = config
self.preprocessor = preprocessor
self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
self.model = NestedNERMultiLabelModel(config["bert_model_name"], config["num_labels"], config["num_labels"], config["num_labels"], config['dropout_rate'])
self.optimizer = torch.optim.AdamW(
self.model.parameters(),
lr=config["learning_rate"],
weight_decay=self.config["weight_decay"]
)
self.start_epoch = 0

self.model = self.model.to(self.device)
self.epochs = config["num_epochs"]

def train(self, train_loader, valid_loader):

num_training_steps = len(train_loader) * (self.epochs - self.start_epoch)

scheduler = get_linear_schedule_with_warmup(
self.optimizer,
num_warmup_steps=500,
num_training_steps=num_training_steps
)

best_loss = 1000
with tqdm(range(num_training_steps)) as progress_bar:
for epoch in range(self.start_epoch, self.epochs):

train_loss = 0
self.model.train()

for input_ids, attention_mask, labels in train_loader:
input_ids, attention_mask = input_ids.to(self.device), attention_mask.to(self.device)

self.optimizer.zero_grad()
labels_pred = self.model(input_ids, attention_mask)

total_loss = 0
for i in range(3):
loss = F.cross_entropy(labels_pred[i].view(-1, 8), labels[:, i].reshape(-1), ignore_index=0)
total_loss += loss

# Update model weights
total_loss.backward()
train_loss += total_loss

torch.nn.utils.clip_grad_norm_(self.model.parameters(), max_norm=self.config["grad_norm"])
self.optimizer.step()
scheduler.step()
progress_bar.update(1)

train_loss = train_loss / num_training_steps

with torch.no_grad():
self.model.eval()
eval_loss = self.evaluate(self.model, valid_loader)
print(f'Epoch: {epoch} | train_loss: {train_loss:

Подробнее здесь: [url]https://stackoverflow.com/questions/79126798/outofmemory-while-training-pre-trained-bert-model-for-token-classification-task[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

OutOfMemory при обучении предварительно обученной модели BERT для задачи классификации токенов

Последнее сообщение Anonymous « 25 окт 2024, 20:45
Добавлено в форуме Python

Anonymous » 25 окт 2024, 20:45 » в форуме Python

Я использую предварительно обученную BertForTokenClassification для задачи распознавания вложенных именованных объектов. Чтобы определить вложенные объекты, я использую метод нескольких меток. На выходе модель возвращает 3 списка логитов, по одному...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
25 окт 2024, 20:45
Pytorch не работает с обученной моделью + предварительно обученной моделью (Intel Open Vino)

Последнее сообщение Гость « 29 фев 2024, 09:54
Добавлено в форуме Python

Гость » 29 фев 2024, 09:54 » в форуме Python

def CLASAAAAABOX(CLASAAAAA,frame): frameHeight=frame.shape FrameWidth=frame.shape blob=cv2.dnn.blobFromImage(frame, 1.0, (672 384), swapRB=False, обрезка=True) CLASAAAAA.setInput(блоб) обнаружение = CLASAAAAA.forward() bboxs=[] для я в диапазоне...

0 Ответы

102 Просмотры

Последнее сообщение Гость
29 фев 2024, 09:54
Pytorch не работает с обученной моделью + предварительно обученной моделью (Intel Open Vino)

Последнее сообщение Гость « 12 мар 2024, 09:21
Добавлено в форуме Python

Гость » 12 мар 2024, 09:21 » в форуме Python

def PeopleBox(PeopleNet,frame):
frameHeight=frame.shape
frameWidth=frame.shape
blob=cv2.dnn.blobFromImage(frame, 1.0, (672,384), swapRB=False, crop=True)
PeopleNet.setInput(blob)
detection=PeopleNet.forward()
bboxs=[]
for i in...

0 Ответы

89 Просмотры

Последнее сообщение Гость
12 мар 2024, 09:21
Bert_Arch не имеет ошибки прогнозирования атрибутов при загрузке предварительно обученной модели в Gradio.

Последнее сообщение Гость « 23 сен 2023, 20:50
Добавлено в форуме Python

Гость » 23 сен 2023, 20:50 » в форуме Python

Я делаю голосового помощника для ресторанов быстрого питания. Я обучил свою модель многоклассовой классификации намерений на Distil-BERT и сохранил файл в формате рассола в Jupyter. Теперь, когда я загружаю его в свое приложение Gradio, чтобы...

0 Ответы

43 Просмотры

Последнее сообщение Гость
23 сен 2023, 20:50
Обнаружение объектов и пробелов на полке при анализе изображений полок с использованием предварительно обученной модели

Последнее сообщение Anonymous « 28 июл 2024, 01:14
Добавлено в форуме Python

Anonymous » 28 июл 2024, 01:14 » в форуме Python

Я выполняю РАСПОЗНАВАНИЕ ПРОДУКТОВ НА ПОЛКЕ, где веб-приложение (созданное с использованием flask) анализирует изображения полок с использованием предварительно обученной модели Azure Vision AI. Для этого я использую экземпляр виртуальной машины...

0 Ответы

29 Просмотры

Последнее сообщение Anonymous
28 июл 2024, 01:14

Вернуться в «Python»