Сохраните обновленные веса/размеры для предварительно обученной модели Берта (думаю, я правильно спрашиваю)

Сохраните обновленные веса/размеры для предварительно обученной модели Берта (думаю, я правильно спрашиваю) ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Сохраните обновленные веса/размеры для предварительно обученной модели Берта (думаю, я правильно спрашиваю)

Цитата

Сообщение Anonymous » 05 ноя 2024, 01:53

Я новичок в машинном обучении, поэтому прошу прощения, если это не совсем понятно, но я постараюсь быть максимально кратким.
Я настраиваю предварительно обученную модель BERT, в частности «без оболочки на основе bert», и частью этого было обновление размера встраивания модели, чтобы я мог добавлять новые токены, а именно смайлики, чтобы токенизатор мог правильно токенизировать указанные смайлы. . Это было сделано таким образом:

Код: Выделить всё

model = BertForSequenceClassification.from_pretrained('bert-base-uncased',
num_labels = 2,
output_attentions = False,
output_hidden_states = False)
weights = model.bert.embeddings.word_embeddings.weight.data
new_weights = torch.cat((weights, weights[101:3399]), 0)
new_emb = nn.Embedding.from_pretrained(new_weights, padding_idx=0, freeze=False)
model.bert.embeddings.word_embeddings = new_emb

Он прошел обучение, и я сохранил его, чтобы иметь возможность загрузить его в будущем, но при попытке загрузить модель в отдельный скрипт для целей оценки я получаю несоответствие размера тензора ошибка. В частности:

Код: Выделить всё

Error(s) in loading state_dict for BertForSequenceClassification:
size mismatch for bert.embeddings.word_embeddings.weight: copying a param with shape torch.Size([33820, 768]) from checkpoint, the shape in current model is torch.Size([30522, 768]).
You may consider adding `ignore_mismatched_sizes=True` in the model `from_pretrained` method

У меня есть обходной путь, но я думаю, что это бесполезно, и, честно говоря, мне это не нравится, потому что в идеале я хотел бы иметь что-то масштабируемое, я думаю? Существует вероятность того, что мне придется добавлять новые токены, и мне не нравится идея вручную изменять их размер каждый раз, когда я загружаю модель. Я не уверен, как правильно сохранить модель и ее текущий вес.
Вот обходной путь:

Код: Выделить всё

model = BertForSequenceClassification.from_pretrained(model_dir, num_labels=2, ignore_mismatched_sizes=True)
weights = model.bert.embeddings.word_embeddings.weight.data
new_weights = torch.cat((weights, weights[101:3399]), 0)
new_emb = nn.Embedding.from_pretrained(new_weights, padding_idx=0, freeze=False)
model.bert.embeddings.word_embeddings = new_emb

model.load_state_dict(torch.load(state_dict_dir, weights_only=True))
tokenizer = BertTokenizer.from_pretrained(model_dir, do_lower_case=True)

Как правильно выполнить то, что я пытаюсь сделать? Если мне что-то непонятно, скажите об этом, и я сделаю все возможное, чтобы прояснить ситуацию.

Подробнее здесь: https://stackoverflow.com/questions/791 ... g-this-cor

1730760783

Anonymous

Я новичок в машинном обучении, поэтому прошу прощения, если это не совсем понятно, но я постараюсь быть максимально кратким.
Я настраиваю предварительно обученную модель BERT, в частности «без оболочки на основе bert», и частью этого было обновление размера встраивания модели, чтобы я мог добавлять новые токены, а именно смайлики, чтобы токенизатор мог правильно токенизировать указанные смайлы. . Это было сделано таким образом:
[code]model = BertForSequenceClassification.from_pretrained('bert-base-uncased',
num_labels = 2,
output_attentions = False,
output_hidden_states = False)
weights = model.bert.embeddings.word_embeddings.weight.data
new_weights = torch.cat((weights, weights[101:3399]), 0)
new_emb = nn.Embedding.from_pretrained(new_weights, padding_idx=0, freeze=False)
model.bert.embeddings.word_embeddings = new_emb
[/code]
Он прошел обучение, и я сохранил его, чтобы иметь возможность загрузить его в будущем, но при попытке загрузить модель в отдельный скрипт для целей оценки я получаю несоответствие размера тензора ошибка. В частности:
[code]Error(s) in loading state_dict for BertForSequenceClassification:
size mismatch for bert.embeddings.word_embeddings.weight: copying a param with shape torch.Size([33820, 768]) from checkpoint, the shape in current model is torch.Size([30522, 768]).
You may consider adding `ignore_mismatched_sizes=True` in the model `from_pretrained` method
[/code]
У меня есть обходной путь, но я думаю, что это бесполезно, и, честно говоря, мне это не нравится, потому что в идеале я хотел бы иметь что-то масштабируемое, я думаю? Существует вероятность того, что мне придется добавлять новые токены, и мне не нравится идея вручную изменять их размер каждый раз, когда я загружаю модель. Я не уверен, как правильно сохранить модель и ее текущий вес.
Вот обходной путь:
[code]model = BertForSequenceClassification.from_pretrained(model_dir, num_labels=2, ignore_mismatched_sizes=True)
weights = model.bert.embeddings.word_embeddings.weight.data
new_weights = torch.cat((weights, weights[101:3399]), 0)
new_emb = nn.Embedding.from_pretrained(new_weights, padding_idx=0, freeze=False)
model.bert.embeddings.word_embeddings = new_emb

model.load_state_dict(torch.load(state_dict_dir, weights_only=True))
tokenizer = BertTokenizer.from_pretrained(model_dir, do_lower_case=True)
[/code]
Как правильно выполнить то, что я пытаюсь сделать? Если мне что-то непонятно, скажите об этом, и я сделаю все возможное, чтобы прояснить ситуацию. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79157215/save-updated-weights-size-for-pretrained-bert-model-i-think-im-asking-this-cor[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Emgu CV: cvinvoke.projectPoints бросает «openCV: d == 2 && (размеры [0] == 1 || Размеры [1] == 1 || Размеры [0] размеры

Последнее сообщение Anonymous « 08 июл 2025, 16:10
Добавлено в форуме C#

Anonymous » 08 июл 2025, 16:10 » в форуме C#

Я использую Emgu CV (OpenCV C# warper) и пытаюсь проецировать 3D -точки на 2D -плоскости изображения с помощью cvinvoke.projectpoints. Тем не менее, я получаю эту ошибку OpenCV:
OpenCV: d == 2 && (sizes == 1 || sizes == 1 || sizes *sizes == 0)
Я...

0 Ответы

41 Просмотры

Последнее сообщение Anonymous
08 июл 2025, 16:10
Pytorch не работает с обученной моделью + предварительно обученной моделью (Intel Open Vino)

Последнее сообщение Гость « 29 фев 2024, 09:54
Добавлено в форуме Python

Гость » 29 фев 2024, 09:54 » в форуме Python

def CLASAAAAABOX(CLASAAAAA,frame): frameHeight=frame.shape FrameWidth=frame.shape blob=cv2.dnn.blobFromImage(frame, 1.0, (672 384), swapRB=False, обрезка=True) CLASAAAAA.setInput(блоб) обнаружение = CLASAAAAA.forward() bboxs=[] для я в диапазоне...

0 Ответы

102 Просмотры

Последнее сообщение Гость
29 фев 2024, 09:54
Pytorch не работает с обученной моделью + предварительно обученной моделью (Intel Open Vino)

Последнее сообщение Гость « 12 мар 2024, 09:21
Добавлено в форуме Python

Гость » 12 мар 2024, 09:21 » в форуме Python

def PeopleBox(PeopleNet,frame):
frameHeight=frame.shape
frameWidth=frame.shape
blob=cv2.dnn.blobFromImage(frame, 1.0, (672,384), swapRB=False, crop=True)
PeopleNet.setInput(blob)
detection=PeopleNet.forward()
bboxs=[]
for i in...

0 Ответы

90 Просмотры

Последнее сообщение Гость
12 мар 2024, 09:21
Изменение выходного слоя предварительно обученной модели в тензорном потоке

Последнее сообщение Гость « 23 сен 2023, 14:04
Добавлено в форуме Python

Гость » 23 сен 2023, 14:04 » в форуме Python

У меня есть предварительно обученная модель, и я хочу изменить только выходной слой на новый с большим количеством единиц. В этом случае старый выходной слой имел 18 единиц, а новый — 20. Моя текущая реализация выглядит так:

старая_модель =...

0 Ответы

72 Просмотры

Последнее сообщение Гость
23 сен 2023, 14:04
Bert_Arch не имеет ошибки прогнозирования атрибутов при загрузке предварительно обученной модели в Gradio.

Последнее сообщение Гость « 23 сен 2023, 20:50
Добавлено в форуме Python

Гость » 23 сен 2023, 20:50 » в форуме Python

Я делаю голосового помощника для ресторанов быстрого питания. Я обучил свою модель многоклассовой классификации намерений на Distil-BERT и сохранил файл в формате рассола в Jupyter. Теперь, когда я загружаю его в свое приложение Gradio, чтобы...

0 Ответы

43 Просмотры

Последнее сообщение Гость
23 сен 2023, 20:50

Вернуться в «Python»