Проблема с тонкой настройкой ламы с несколькими графическими процессорами. Ошибка выполнения: ожидалось, что все тензоры

Проблема с тонкой настройкой ламы с несколькими графическими процессорами. Ошибка выполнения: ожидалось, что все тензоры ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Проблема с тонкой настройкой ламы с несколькими графическими процессорами. Ошибка выполнения: ожидалось, что все тензоры

Цитата

Сообщение Anonymous » 28 ноя 2024, 13:55

Я работаю над задачей по тонкой настройке ламы. Когда я тренируюсь на одном графическом процессоре, программа работает нормально.

Код: Выделить всё

import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
os.environ["TOKENIZERS_PARALLELISM"] = "false"
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
model_name = "../models/llama3_8b/"
model = AutoModelForCausalLM.from_pretrained(
model_name,
device_map=device,
torch_dtype=compute_dtype,
quantization_config=bnb_config,
)

Но когда я захотел использовать несколько графических процессоров для точной настройки, произошла ошибка. Модифицированный код выглядит следующим образом:

Код: Выделить всё

model = AutoModelForCausalLM.from_pretrained(
model_name,
# device_map=device,
**device_map="auto",**  # Modifications
torch_dtype=compute_dtype,
quantization_config=bnb_config,
)
peft_config = LoraConfig(
lora_alpha=16,
lora_dropout=0,
r=64,
bias="none",
task_type="CAUSAL_LM",
target_modules=["q_proj", "k_proj", "v_proj", "o_proj",
"gate_proj", "up_proj", "down_proj",],
)
training_arguments = TrainingArguments(
...
**local_rank=os.getenv("LOCAL_RANK", -1),**  # Modifications
**ddp_find_unused_parameters=False,**  # Modifications
)
trainer = SFTTrainer(
model=model,
args=training_arguments,
train_dataset=train_data,
#eval_dataset=eval_data,
peft_config=peft_config,
dataset_text_field="text",
tokenizer=tokenizer,
max_seq_length=max_seq_length,
packing=False,
dataset_kwargs={
"add_special_tokens": False,
"append_concat_token": False,
},
)
trainer.train()

Ошибка следующая:

Код: Выделить всё

RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:2 and cuda:0!

Выполнение кода:

Код: Выделить всё

CUDA_VISIBLE_DEVICES=3,4 python llama3.py

Кто-нибудь знает, как это решить?

Подробнее здесь: https://stackoverflow.com/questions/792 ... to-be-on-t

1732791311

Anonymous

Я работаю над задачей по тонкой настройке ламы. Когда я тренируюсь на одном графическом процессоре, программа работает нормально.
[code]import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
os.environ["TOKENIZERS_PARALLELISM"] = "false"
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
model_name = "../models/llama3_8b/"
model = AutoModelForCausalLM.from_pretrained(
model_name,
device_map=device,
torch_dtype=compute_dtype,
quantization_config=bnb_config,
)

[/code]
Но когда я захотел использовать несколько графических процессоров для точной настройки, произошла ошибка. Модифицированный код выглядит следующим образом:
[code]model = AutoModelForCausalLM.from_pretrained(
model_name,
# device_map=device,
**device_map="auto",**  # Modifications
torch_dtype=compute_dtype,
quantization_config=bnb_config,
)
peft_config = LoraConfig(
lora_alpha=16,
lora_dropout=0,
r=64,
bias="none",
task_type="CAUSAL_LM",
target_modules=["q_proj", "k_proj", "v_proj", "o_proj",
"gate_proj", "up_proj", "down_proj",],
)
training_arguments = TrainingArguments(
...
**local_rank=os.getenv("LOCAL_RANK", -1),**  # Modifications
**ddp_find_unused_parameters=False,**  # Modifications
)
trainer = SFTTrainer(
model=model,
args=training_arguments,
train_dataset=train_data,
#eval_dataset=eval_data,
peft_config=peft_config,
dataset_text_field="text",
tokenizer=tokenizer,
max_seq_length=max_seq_length,
packing=False,
dataset_kwargs={
"add_special_tokens": False,
"append_concat_token": False,
},
)
trainer.train()
[/code]
Ошибка следующая:
[code]RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:2 and cuda:0!
[/code]
Выполнение кода:
[code]CUDA_VISIBLE_DEVICES=3,4 python llama3.py
[/code]
Кто-нибудь знает, как это решить? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79233547/multi-gpu-fine-tuning-llama-issue-runtimeerror-expected-all-tensors-to-be-on-t[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Проблема с тензорами pytorch и несколькими графическими процессорами при использовании DataParallel

Последнее сообщение Anonymous « 10 июл 2024, 21:27
Добавлено в форуме Python

Anonymous » 10 июл 2024, 21:27 » в форуме Python

У меня есть большой код машинного обучения, который я пишу в течение нескольких месяцев, и я начал процесс распараллеливания данных для работы с несколькими графическими процессорами. Начнем с того, что код отлично работает при использовании одного...

0 Ответы

24 Просмотры

Последнее сообщение Anonymous
10 июл 2024, 21:27
Можно ли выполнить несколько экземпляров программы CUDA на машине с несколькими графическими процессорами?

Последнее сообщение Anonymous « 23 ноя 2024, 03:18
Добавлено в форуме C++

Anonymous » 23 ноя 2024, 03:18 » в форуме C++

Справочная информация:

Я написал программу CUDA, которая выполняет обработку последовательности символов. Программа обрабатывает все последовательности символов параллельно, при условии, что все последовательности имеют одинаковую длину. Я...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
23 ноя 2024, 03:18
Обучение с несколькими графическими процессорами медленнее, чем обучение с одним графическим процессором, с использовани

Последнее сообщение Anonymous « 12 дек 2024, 23:11
Добавлено в форуме Python

Anonymous » 12 дек 2024, 23:11 » в форуме Python

Я собрал фиктивную модель молнии Pytorch специально для сравнения времени, необходимого для завершения обучения с несколькими графическими процессорами (3 графических процессора, использующих DDP, называемых 3G) и обучения с одним графическим...

0 Ответы

29 Просмотры

Последнее сообщение Anonymous
12 дек 2024, 23:11
Компиляция OpenACC с графическими процессорами AMD

Последнее сообщение Гость « 20 сен 2023, 18:22
Добавлено в форуме C++

Гость » 20 сен 2023, 18:22 » в форуме C++

У меня возникли проблемы с его компиляцией с помощью AMD Radeon R7 M360. Я скомпилировал его с многоядерным процессором, как показано ниже, но может кто-нибудь сказать мне, как скомпилировать его с графическим процессором? Я пробовал...

0 Ответы

39 Просмотры

Последнее сообщение Гость
20 сен 2023, 18:22
Ubuntu OpenCL не может найти графический процессор Intel на устройстве с двумя графическими процессорами

Последнее сообщение Anonymous « 04 янв 2025, 12:43
Добавлено в форуме C++

Anonymous » 04 янв 2025, 12:43 » в форуме C++

Я пытаюсь написать приложение opencl C++ на старом ноутбуке с Ubuntu. Он имеет два графических процессора, которые отображаются, когда я запускаю lspci | grep VGA:
00:02.0 VGA compatible controller: Intel Corporation 3rd Gen Core processor Graphics...

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
04 янв 2025, 12:43

Вернуться в «Python»