Тонкая настройка предварительно предварительно проведенной модели с квантованием и усилителем: ошибка масштаба «пытается

Тонкая настройка предварительно предварительно проведенной модели с квантованием и усилителем: ошибка масштаба «пытается ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Тонкая настройка предварительно предварительно проведенной модели с квантованием и усилителем: ошибка масштаба «пытается

Цитата

Сообщение Anonymous » 26 фев 2025, 01:39

Я пытаюсь точно настроить предварительную модель с ограниченным VRAM. Чтобы достичь этого, я использую квантование и автоматическую смешанную точность (AMP). Тем не менее, я сталкиваюсь с проблемой, которую я не могу решить. Не могли бы вы помочь мне определить проблему?import os
from transformers import BitsAndBytesConfig, OPTForCausalLM, GPT2TokenizerFast
import torch
from torch.cuda.amp import GradScaler, autocast

model_name = "facebook/opt-1.3b"
cache_dir = './models'
os.environ["CUDA_VISIBLE_DEVICES"] = "7"

quantization_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch.float16
)

pretrained_model:OPTForCausalLM = OPTForCausalLM.from_pretrained(model_name,
cache_dir=cache_dir,
quantization_config=quantization_config)
tokenizer:GPT2TokenizerFast = GPT2TokenizerFast.from_pretrained(model_name,
cache_dir=cache_dir)
optimizer = torch.optim.AdamW(pretrained_model.parameters(), lr=1e-4)
scaler = GradScaler()
input_ids = torch.LongTensor([[0, 1, 2, 3]]).to(0)
labels = torch.LongTensor([[1, 2, 3, 4]]).to(0)
with torch.autocast(device_type='cuda'):
out = pretrained_model(input_ids=input_ids, labels=labels)
loss = out.loss
scaler.scale(out.loss).backward()
scaler.step(optimizer)
scaler.update()
optimizer.zero_grad()

print(f'End')

На строке Scaler.step (Optimizer) возникает ошибка:
Exception has occurred: ValueError: Attempting to unscale FP16 gradients.

Подробнее здесь: https://stackoverflow.com/questions/789 ... r-attempti

1740523172

Anonymous

 Я пытаюсь точно настроить предварительную модель с ограниченным VRAM. Чтобы достичь этого, я использую квантование и автоматическую смешанную точность (AMP). Тем не менее, я сталкиваюсь с проблемой, которую я не могу решить. Не могли бы вы помочь мне определить проблему?import os
from transformers import BitsAndBytesConfig, OPTForCausalLM, GPT2TokenizerFast
import torch
from torch.cuda.amp import GradScaler, autocast

model_name = "facebook/opt-1.3b"
cache_dir = './models'
os.environ["CUDA_VISIBLE_DEVICES"] = "7"

quantization_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch.float16
)

pretrained_model:OPTForCausalLM = OPTForCausalLM.from_pretrained(model_name,
cache_dir=cache_dir,
quantization_config=quantization_config)
tokenizer:GPT2TokenizerFast = GPT2TokenizerFast.from_pretrained(model_name,
cache_dir=cache_dir)
optimizer = torch.optim.AdamW(pretrained_model.parameters(), lr=1e-4)
scaler = GradScaler()
input_ids = torch.LongTensor([[0, 1, 2, 3]]).to(0)
labels = torch.LongTensor([[1, 2, 3, 4]]).to(0)
with torch.autocast(device_type='cuda'):
out = pretrained_model(input_ids=input_ids, labels=labels)
loss = out.loss
scaler.scale(out.loss).backward()
scaler.step(optimizer)
scaler.update()
optimizer.zero_grad()

print(f'End')

На строке Scaler.step (Optimizer)  возникает ошибка: 
Exception has occurred: ValueError: Attempting to unscale FP16 gradients.

 

Подробнее здесь: [url]https://stackoverflow.com/questions/78943401/fine-tuning-a-pretrained-model-with-quantization-and-amp-scaler-error-attempti[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Тонкая настройка GliNER — потери при проверке не регистрируются

Последнее сообщение Anonymous « 02 июл 2024, 15:44
Добавлено в форуме Python

Anonymous » 02 июл 2024, 15:44 » в форуме Python

Я пытаюсь выполнить точную настройку с помощью этого блокнота: GLiNER/examples/finetune.ipynb в main · urchade/GLiNER (github.com)
Однако в журналах отображается только ' loss' , что, как я предполагаю, является потерей набора обучающих данных, но...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
02 июл 2024, 15:44
Тонкая настройка TrOCR в чипе Mac M4 (MPS)

Последнее сообщение Anonymous « 14 янв 2025, 18:42
Добавлено в форуме Python

Anonymous » 14 янв 2025, 18:42 » в форуме Python

У меня возникла проблема при переключении моего устройства на MPS. Мое обучение проходит без проблем на процессоре, но когда я настраиваю устройство на MPS, я получаю следующую ошибку:
RuntimeError: view size is not compatible with input tensor's...

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
14 янв 2025, 18:42
Эффективная тонкая настройка OCR

Последнее сообщение Anonymous « 09 апр 2025, 06:43
Добавлено в форуме Python

Anonymous » 09 апр 2025, 06:43 » в форуме Python

Я работаю над проектом, который включает в себя чрезвычайно большое количество PDF. Каждый PDF является изображением обычного документа офисного типа. Каждая страница PDF хранится отдельный файл. Есть ли способ сделать это быстрее (то есть с более...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
09 апр 2025, 06:43
Эффективная тонкая настройка OCR

Последнее сообщение Anonymous « 09 апр 2025, 17:26
Добавлено в форуме Python

Anonymous » 09 апр 2025, 17:26 » в форуме Python

Я работаю над проектом, который включает в себя чрезвычайно большое количество PDF. Каждый PDF является изображением обычного документа офисного типа. Каждая страница PDF хранится отдельный файл. Есть ли способ сделать это быстрее (то есть с более...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
09 апр 2025, 17:26
DLL на базе Telerik не загружается из-за проблем с усилителем(?)

Последнее сообщение Anonymous « 18 окт 2023, 17:20
Добавлено в форуме C#

Anonymous » 18 окт 2023, 17:20 » в форуме C#

Я работаю над решением C#, содержащим два проекта: клиент и сервер.

Оба обычно создаются с использованием «Любого процессора» (что, по моему мнению, означает), что они создаются как 64-битные процессы.

При создании клиента я получаю следующее...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
18 окт 2023, 17:20

Вернуться в «Python»