Slurm Невозможно установить другой тип графического процессора на одном узле

Slurm Невозможно установить другой тип графического процессора на одном узле ⇐ Linux

1 сообщение • Страница 1 из 1

Anonymous

Slurm Невозможно установить другой тип графического процессора на одном узле

Цитата

Сообщение Anonymous » 06 ноя 2023, 11:57

Я пытаюсь добавить видеокарту в узел slurm. Сейчас у меня два p104 и один 1080ti. У меня проблема с настройкой slurm.conf и gres.conf.

Я хочу назначить тип каждой видеокарте
Slurm.conf
SchedulerType=sched/backfill SelectType=select/cons_tres SelectTypeParameters=CR_CPU GresTypes=GPU NodeName=tower CPUs=52 Платы=1 SocketsPerBoard=2 CoresPerSocket=26 ThreadsPerCore=1 RealMemory=257389 Features=gpu Gres=gpu:1080_ti:1,gpu:p104:2 gres.conf Автоопределение=выкл. #NodeName=amd01 Name=gpu File=/dev/nvidia0 Cores=24-27 #NodeName=amd01 Имя=GPU Тип=1080_ti Файл=/dev/nvidia1 Ядра=24-27 NodeName=tower Name=GPU Type=p104 File=/dev/nvidia0 Cores=0-25 NodeName=tower Name=GPU Type=p104 File=/dev/nvidia1 Cores=0-25 Имя узла=имя башни=тип графического процессора=1080_ti Файл=/dev/nvidia2 Ядра=26-51 вот slurmd.log

[2023-11-06T16:28:32.162] отладка: файл журнала снова открыт [2023-11-06T16:28:32.166] отладка: cgroup/v1: init: загружен плагин Cgroup v1 [2023-11-06T16:28:32.171] GRES: Глобальное автоопределение = выключено (4) [2023-11-06T16:28:32.171] отладка: gres/gpu: init: загружено [2023-11-06T16:28:32.171] отладка: gpu/generic: init: init: плагин GPU Generic загружен [2023-11-06T16:28:32.171] GRES: _set_gres_device_desc: /dev/nvidia2 основной 195, второстепенный 2 [2023-11-06T16:28:32.171] GRES: _set_gres_device_desc: /dev/nvidia0 основной 195, второстепенный 0 [2023-11-06T16:28:32.171] GRES: _set_gres_device_desc: /dev/nvidia1 основной 195, второстепенный 1 [2023-11-06T16:28:32.171] GRES: номер устройства графического процессора 2(/dev/nvidia2):c 195:2 rwm [2023-11-06T16:28:32.171] GRES: номер устройства графического процессора 0(/dev/nvidia0):c 195:0 rwm [2023-11-06T16:28:32.171] GRES: номер устройства графического процессора 1(/dev/nvidia1):c 195:1 rwm [2023-11-06T16:28:32.171] Gres Name=GPU Type=1080_ti Count=1 Index=2 ID=7696487 File=/dev/nvidia2 Cores=26-51 CoreCnt=52 Links=(null) Flags=HAS_FILE, HAS_TYPE, ENV_NVML, ENV_RSMI, ENV_ONEAPI, ENV_OPENCL, ENV_DEFAULT [2023-11-06T16:28:32.171] Gres Name=GPU Type=p104 Count=1 Index=0 ID=7696487 File=/dev/nvidia0 Cores=0-25 CoreCnt=52 Links=(null) Flags=HAS_FILE, HAS_TYPE, ENV_NVML, ENV_RSMI, ENV_ONEAPI, ENV_OPENCL, ENV_DEFAULT [2023-11-06T16:28:32.171] Gres Name=GPU Type=p104 Count=1 Index=1 ID=7696487 File=/dev/nvidia1 Cores=0-25 CoreCnt=52 Links=(null) Flags=HAS_FILE, HAS_TYPE, ENV_NVML, ENV_RSMI, ENV_ONEAPI, ENV_OPENCL, ENV_DEFAULT [2023-11-06T16:28:32.172] топология/нет: init: плагин топологии НЕТ загружен [2023-11-06T16:28:32.172] маршрут/по умолчанию: init: плагин маршрута по умолчанию загружен [2023-11-06T16:28:32.172] debug2: сбор информации о частоте процессора для 52 процессоров [2023-11-06T16:28:32.176] отладка: спецификация ресурса: на этом узле по умолчанию не настроено специализированных ядер. [2023-11-06T16:28:32.176] отладка: спецификация ресурса: предел зарезервированной системной памяти не настроен для этого узла [2023-11-06T16:28:32.176] отладка: задача/cgroup: init: плагин cgroup сдерживания задач загружен [2023-11-06T16:28:32.177] Task/affinity: init: плагин привязки задач загружен с маской ЦП 0xffffffffffffff [2023-11-06T16:28:32.177] отладка: шлепанье: открытие стека плагинов /etc/slurm/plugstack.conf [2023-11-06T16:28:32.178] отладка: /etc/slurm/plugstack.conf: 1: включить "/etc/slurm/plugstack.conf.d/*.conf" [2023-11-06T16:28:32.179] cred/munge: init: плагин подписи учетных данных Munge загружен [2023-11-06T16:28:32.179] Запущена версия slurmd 23.02.2 [2023-11-06T16:28:32.179] отладка: acct_gather_energy/none: init: плагин AcctGatherEnergy NONE загружен [2023-11-06T16:28:32.179] отладка: acct_gather_profile/none: init: плагин AcctGatherProfile НЕТ загружен [2023-11-06T16:28:32.179] отладка: acct_gather_interconnect/none: init: плагин AcctGatherInterconnect NONE загружен [2023-11-06T16:28:32.179] отладка: acct_gather_filesystem/none: init: плагин AcctGatherFilesystem НЕТ загружен [2023-11-06T16:28:32.179] debug2: Нет файла acct_gather.conf (/etc/slurm/acct_gather.conf) [2023-11-06T16:28:32.180] отладка: jobacct_gather/cgroup: init: плагин cgroup для учета заданий загружен [2023-11-06T16:28:32.180] отладка: job_container/none: init: job_container ни один плагин не загружен [2023-11-06T16:28:32.181] отладка: переключатель/нет: инициализация: переключатель NONE плагин загружен [2023-11-06T16:28:32.181] отладка: загружен плагин переключателя Cray/Aries. [2023-11-06T16:28:32.181] отладка: MPI: загрузка всех типов [2023-11-06T16:28:32.182] debug2: Нет файла mpi.conf (/etc/slurm/mpi.conf) [2023-11-06T16:28:32.183] slurmd начался в понедельник, 06 ноября 2023 г., 16:28:32 +0800 [2023-11-06T16:28:32.183] ЦП=52 Платы=1 Сокеты=2 ядра=26 потоков=1 Память=257390 TmpDisk=459103 Время работы=1832 CPUSpecList=(null) FeaturesAvail=(null) FeaturesActive=(null) [2023-11-06T16:28:32.200] отладка: _handle_node_reg_resp: slurmctld отправил обратно 11 TRES. Кажется, все в порядке

Но информация об узле:

$ scontrol показать башню узла NodeName=башня Arch=x86_64 CoresPerSocket=26 CPUAlloc=0 CPUEfctv=52 CPUTot=52 CPULoad=0.03 Доступные функции = графический процессор ActiveFeatures=графический процессор Грес=ГП:3(С:0-1) NodeAddr=башня NodeHostName=башня Версия=23.02.2 OS=Linux 3.10.0-1160.92.1.el7.x86_64 #1 SMP Вт, 20 июня 11:48:01 UTC 2023 RealMemory=257389 AllocMem=0 FreeMem=252880 Сокеты=2 Платы=1 State=IDLE ThreadsPerCore=1 TmpDisk=0 Вес=1 Владелец=Н/Д MCS_label=Н/Д Разделы = быстро BootTime=2023-11-06T15:58:09 SlurmdStartTime=2023-11-06T16:28:32 LastBusyTime=2023-11-06T16:28:37 ResumeAfterTime=Нет CfgTRES=cpu=52,mem=257389M,биллинг=52,gres/gpu=3 ВыделитьTRES= CapWatts=н/д ТекущиеВатты=0 AveWatts=0 ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s Почему Gres=gpu:3(S:0-1) не показывает tpye?

И когда я отправляю задание, я получаю сообщение об ошибке

# root @ контроллер в ~ [16:34:38] $ srun -p fast -w Tower --gres=gpu:1080ti:1 имя хоста srun: ошибка: невозможно выделить ресурсы: запрошенная конфигурация узла недоступна # root @ контроллер в ~ [16:34:47] C:1 $ srun -p fast -w Tower --gres=gpu:1080_ti:1 имя хоста srun: ошибка: невозможно выделить ресурсы: запрошенная конфигурация узла недоступна # root @ контроллер в ~ [16:34:50] C:1 $ srun -p fast -w Tower --gres=gpu:p104:1 имя хоста srun: ошибка: невозможно выделить ресурсы: запрошенная конфигурация узла недоступна # root @ контроллер в ~ [16:35:13] C:1 $ srun -p fast -w Tower --gres=gpu:1 имя хоста башня # root@контроллер в ~[16:35:18] $ srun -p fast -w Tower --gres=gpu:2 имя хоста башня если в slurm.conf установлено следующее, разницы нет

NodeName=tower CPUs=52 Boards=1 SocketsPerBoard=2 CoresPerSocket=26 ThreadsPerCore=1 RealMemory=257389 Features=gpu Gres=gpu:3 Еще один вопрос: когда я отправляю несколько задач, каждая из которых использует один графический процессор, я могу использовать команду htop, чтобы увидеть, что только один процессор (обычно первый процессор) работает на 100%. Как заставить разные задачи графического процессора использовать разные процессоры и как настроить привязку процессоров.

1699261034

Anonymous


Я пытаюсь добавить видеокарту в узел slurm. Сейчас у меня два p104 и один 1080ti. У меня проблема с настройкой slurm.conf и gres.conf.
 
Я хочу назначить тип каждой видеокарте
 Slurm.conf 
SchedulerType=sched/backfill SelectType=select/cons_tres SelectTypeParameters=CR_CPU GresTypes=GPU NodeName=tower CPUs=52 Платы=1 SocketsPerBoard=2 CoresPerSocket=26 ThreadsPerCore=1 RealMemory=257389 Features=gpu Gres=gpu:1080_ti:1,gpu:p104:2  gres.conf Автоопределение=выкл. #NodeName=amd01 Name=gpu File=/dev/nvidia0 Cores=24-27 #NodeName=amd01 Имя=GPU Тип=1080_ti Файл=/dev/nvidia1 Ядра=24-27 NodeName=tower Name=GPU Type=p104 File=/dev/nvidia0 Cores=0-25 NodeName=tower Name=GPU Type=p104 File=/dev/nvidia1 Cores=0-25 Имя узла=имя башни=тип графического процессора=1080_ti Файл=/dev/nvidia2 Ядра=26-51  вот slurmd.log
 
[2023-11-06T16:28:32.162] отладка: файл журнала снова открыт [2023-11-06T16:28:32.166] отладка: cgroup/v1: init: загружен плагин Cgroup v1 [2023-11-06T16:28:32.171] GRES: Глобальное автоопределение = выключено (4) [2023-11-06T16:28:32.171] отладка: gres/gpu: init: загружено [2023-11-06T16:28:32.171] отладка: gpu/generic: init: init: плагин GPU Generic загружен [2023-11-06T16:28:32.171] GRES: _set_gres_device_desc: /dev/nvidia2 основной 195, второстепенный 2 [2023-11-06T16:28:32.171] GRES: _set_gres_device_desc: /dev/nvidia0 основной 195, второстепенный 0 [2023-11-06T16:28:32.171] GRES: _set_gres_device_desc: /dev/nvidia1 основной 195, второстепенный 1 [2023-11-06T16:28:32.171] GRES: номер устройства графического процессора 2(/dev/nvidia2):c 195:2 rwm [2023-11-06T16:28:32.171] GRES: номер устройства графического процессора 0(/dev/nvidia0):c 195:0 rwm [2023-11-06T16:28:32.171] GRES: номер устройства графического процессора 1(/dev/nvidia1):c 195:1 rwm [2023-11-06T16:28:32.171] Gres Name=GPU Type=1080_ti Count=1 Index=2 ID=7696487 File=/dev/nvidia2 Cores=26-51 CoreCnt=52 Links=(null) Flags=HAS_FILE, HAS_TYPE, ENV_NVML, ENV_RSMI, ENV_ONEAPI, ENV_OPENCL, ENV_DEFAULT [2023-11-06T16:28:32.171] Gres Name=GPU Type=p104 Count=1 Index=0 ID=7696487 File=/dev/nvidia0 Cores=0-25 CoreCnt=52 Links=(null) Flags=HAS_FILE, HAS_TYPE, ENV_NVML, ENV_RSMI, ENV_ONEAPI, ENV_OPENCL, ENV_DEFAULT [2023-11-06T16:28:32.171] Gres Name=GPU Type=p104 Count=1 Index=1 ID=7696487 File=/dev/nvidia1 Cores=0-25 CoreCnt=52 Links=(null) Flags=HAS_FILE, HAS_TYPE, ENV_NVML, ENV_RSMI, ENV_ONEAPI, ENV_OPENCL, ENV_DEFAULT [2023-11-06T16:28:32.172] топология/нет: init: плагин топологии НЕТ загружен [2023-11-06T16:28:32.172] маршрут/по умолчанию: init: плагин маршрута по умолчанию загружен [2023-11-06T16:28:32.172] debug2: сбор информации о частоте процессора для 52 процессоров [2023-11-06T16:28:32.176] отладка: спецификация ресурса: на этом узле по умолчанию не настроено специализированных ядер. [2023-11-06T16:28:32.176] отладка: спецификация ресурса: предел зарезервированной системной памяти не настроен для этого узла [2023-11-06T16:28:32.176] отладка: задача/cgroup: init: плагин cgroup сдерживания задач загружен [2023-11-06T16:28:32.177] Task/affinity: init: плагин привязки задач загружен с маской ЦП 0xffffffffffffff [2023-11-06T16:28:32.177] отладка: шлепанье: открытие стека плагинов /etc/slurm/plugstack.conf [2023-11-06T16:28:32.178] отладка: /etc/slurm/plugstack.conf: 1: включить "/etc/slurm/plugstack.conf.d/*.conf" [2023-11-06T16:28:32.179] cred/munge: init: плагин подписи учетных данных Munge загружен [2023-11-06T16:28:32.179] Запущена версия slurmd 23.02.2 [2023-11-06T16:28:32.179] отладка: acct_gather_energy/none: init: плагин AcctGatherEnergy NONE загружен [2023-11-06T16:28:32.179] отладка: acct_gather_profile/none: init: плагин AcctGatherProfile НЕТ загружен [2023-11-06T16:28:32.179] отладка: acct_gather_interconnect/none: init: плагин AcctGatherInterconnect NONE загружен [2023-11-06T16:28:32.179] отладка: acct_gather_filesystem/none: init: плагин AcctGatherFilesystem НЕТ загружен [2023-11-06T16:28:32.179] debug2: Нет файла acct_gather.conf (/etc/slurm/acct_gather.conf) [2023-11-06T16:28:32.180] отладка: jobacct_gather/cgroup: init: плагин cgroup для учета заданий загружен [2023-11-06T16:28:32.180] отладка: job_container/none: init: job_container ни один плагин не загружен [2023-11-06T16:28:32.181] отладка: переключатель/нет: инициализация: переключатель NONE плагин загружен [2023-11-06T16:28:32.181] отладка: загружен плагин переключателя Cray/Aries. [2023-11-06T16:28:32.181] отладка: MPI: загрузка всех типов [2023-11-06T16:28:32.182] debug2: Нет файла mpi.conf (/etc/slurm/mpi.conf) [2023-11-06T16:28:32.183] slurmd начался в понедельник, 06 ноября 2023 г., 16:28:32 +0800 [2023-11-06T16:28:32.183] ЦП=52 Платы=1 Сокеты=2 ядра=26 потоков=1 Память=257390 TmpDisk=459103 Время работы=1832 CPUSpecList=(null) FeaturesAvail=(null) FeaturesActive=(null) [2023-11-06T16:28:32.200] отладка: _handle_node_reg_resp: slurmctld отправил обратно 11 TRES.  Кажется, все в порядке
 
Но информация об узле:
 
$ scontrol показать башню узла NodeName=башня Arch=x86_64 CoresPerSocket=26    CPUAlloc=0 CPUEfctv=52 CPUTot=52 CPULoad=0.03    Доступные функции = графический процессор    ActiveFeatures=графический процессор    Грес=ГП:3(С:0-1)    NodeAddr=башня NodeHostName=башня Версия=23.02.2    OS=Linux 3.10.0-1160.92.1.el7.x86_64 #1 SMP Вт, 20 июня 11:48:01 UTC 2023    RealMemory=257389 AllocMem=0 FreeMem=252880 Сокеты=2 Платы=1    State=IDLE ThreadsPerCore=1 TmpDisk=0 Вес=1 Владелец=Н/Д MCS_label=Н/Д    Разделы = быстро    BootTime=2023-11-06T15:58:09 SlurmdStartTime=2023-11-06T16:28:32    LastBusyTime=2023-11-06T16:28:37 ResumeAfterTime=Нет    CfgTRES=cpu=52,mem=257389M,биллинг=52,gres/gpu=3    ВыделитьTRES=    CapWatts=н/д    ТекущиеВатты=0 AveWatts=0    ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s  Почему Gres=gpu:3(S:0-1) не показывает tpye?
 
И когда я отправляю задание, я получаю сообщение об ошибке
 
# root @ контроллер в ~ [16:34:38] $ srun -p fast -w Tower --gres=gpu:1080ti:1 имя хоста srun: ошибка: невозможно выделить ресурсы: запрошенная конфигурация узла недоступна # root @ контроллер в ~ [16:34:47] C:1 $ srun -p fast -w Tower --gres=gpu:1080_ti:1 имя хоста srun: ошибка: невозможно выделить ресурсы: запрошенная конфигурация узла недоступна # root @ контроллер в ~ [16:34:50] C:1 $ srun -p fast -w Tower --gres=gpu:p104:1 имя хоста srun: ошибка: невозможно выделить ресурсы: запрошенная конфигурация узла недоступна # root @ контроллер в ~ [16:35:13] C:1 $ srun -p fast -w Tower --gres=gpu:1 имя хоста башня # root@контроллер в ~[16:35:18] $ srun -p fast -w Tower --gres=gpu:2 имя хоста башня  если в slurm.conf установлено следующее, разницы нет
 
NodeName=tower CPUs=52 Boards=1 SocketsPerBoard=2 CoresPerSocket=26 ThreadsPerCore=1 RealMemory=257389 Features=gpu Gres=gpu:3   Еще один вопрос: когда я отправляю несколько задач, каждая из которых использует один графический процессор, я могу использовать команду htop, чтобы увидеть, что только один процессор (обычно первый процессор) работает на 100%. Как заставить разные задачи графического процессора использовать разные процессоры и как настроить привязку процессоров.

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как узнать загрузку графического процессора в процентах и температуру графического процессора на видеокартах AMD

Последнее сообщение Гость « 20 сен 2023, 16:48
Добавлено в форуме C++

Гость » 20 сен 2023, 16:48 » в форуме C++

Кто-нибудь знает, как получить загрузку графического процессора (в процентах) и температуру графического процессора на видеокартах Radeon, используя API из какого-либо AMD SDK? Похоже, что в AGS SDK нет необходимого API. Например, у NVIDIA есть...

0 Ответы

227 Просмотры

Последнее сообщение Гость
20 сен 2023, 16:48
У графического процессора закончилась память. Как вызвать сборщик мусора для очистки памяти графического процессора при

Последнее сообщение Гость « 21 сен 2023, 22:54
Добавлено в форуме Python

Гость » 21 сен 2023, 22:54 » в форуме Python

Я обучаю свою модель на удаленном сервере, используя API GridSearchCV для настройки некоторых гиперпараметров, таких как epochs, l_rate, пакетный_размер и терпение. К сожалению, при их настройке после нескольких итераций я получаю следующую ошибку:...

0 Ответы

170 Просмотры

Последнее сообщение Гость
21 сен 2023, 22:54
SLURM: запуск заданий графического процессора на узлах из Python

Последнее сообщение Anonymous « 26 ноя 2024, 04:10
Добавлено в форуме Python

Anonymous » 26 ноя 2024, 04:10 » в форуме Python

Я пытаюсь запустить скрипт Python, который оценивает другую функцию для разных значений параметров, и делает это N раз. Вычисления функций независимы, и я хочу запустить каждую из них на одном графическом процессоре. Я запускаю это в кластере, где...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
26 ноя 2024, 04:10
Как установить конкретные процессоры, используемые очередью SLURM на определенном узле

Последнее сообщение Anonymous « 08 май 2024, 17:39
Добавлено в форуме Linux

Anonymous » 08 май 2024, 17:39 » в форуме Linux

У меня есть несколько небольших общих вычислительных рабочих станций, используемых для исследовательской работы с очень большими вычислительными нагрузками, и я пытаюсь максимизировать производительность вычислений при использовании в кластере...

0 Ответы

31 Просмотры

Последнее сообщение Anonymous
08 май 2024, 17:39
CSS-анимация перехода потребляет много ресурсов процессора/графического процессора

Последнее сообщение Гость « 30 сен 2023, 22:03
Добавлено в форуме CSS

Гость » 30 сен 2023, 22:03 » в форуме CSS

Я реализую небольшой эффект на своем веб-сайте. Случайное изменение размера одного из элементов гибели.

#the-div { ширина: 100 пикселей; переход: 0,3 с, все с легкостью; } const theDiv = document.getElementById( the-div ); функция анимации(){...

0 Ответы

133 Просмотры

Последнее сообщение Гость
30 сен 2023, 22:03

Вернуться в «Linux»