Slurm Невозможно установить другой тип графического процессора на одном узле ⇐ Linux
Slurm Невозможно установить другой тип графического процессора на одном узле
Я пытаюсь добавить видеокарту в узел slurm. Сейчас у меня два p104 и один 1080ti. У меня проблема с настройкой slurm.conf и gres.conf.
Я хочу назначить тип каждой видеокарте
Slurm.conf
SchedulerType=sched/backfill SelectType=select/cons_tres SelectTypeParameters=CR_CPU GresTypes=GPU NodeName=tower CPUs=52 Платы=1 SocketsPerBoard=2 CoresPerSocket=26 ThreadsPerCore=1 RealMemory=257389 Features=gpu Gres=gpu:1080_ti:1,gpu:p104:2 gres.conf Автоопределение=выкл. #NodeName=amd01 Name=gpu File=/dev/nvidia0 Cores=24-27 #NodeName=amd01 Имя=GPU Тип=1080_ti Файл=/dev/nvidia1 Ядра=24-27 NodeName=tower Name=GPU Type=p104 File=/dev/nvidia0 Cores=0-25 NodeName=tower Name=GPU Type=p104 File=/dev/nvidia1 Cores=0-25 Имя узла=имя башни=тип графического процессора=1080_ti Файл=/dev/nvidia2 Ядра=26-51 вот slurmd.log
[2023-11-06T16:28:32.162] отладка: файл журнала снова открыт [2023-11-06T16:28:32.166] отладка: cgroup/v1: init: загружен плагин Cgroup v1 [2023-11-06T16:28:32.171] GRES: Глобальное автоопределение = выключено (4) [2023-11-06T16:28:32.171] отладка: gres/gpu: init: загружено [2023-11-06T16:28:32.171] отладка: gpu/generic: init: init: плагин GPU Generic загружен [2023-11-06T16:28:32.171] GRES: _set_gres_device_desc: /dev/nvidia2 основной 195, второстепенный 2 [2023-11-06T16:28:32.171] GRES: _set_gres_device_desc: /dev/nvidia0 основной 195, второстепенный 0 [2023-11-06T16:28:32.171] GRES: _set_gres_device_desc: /dev/nvidia1 основной 195, второстепенный 1 [2023-11-06T16:28:32.171] GRES: номер устройства графического процессора 2(/dev/nvidia2):c 195:2 rwm [2023-11-06T16:28:32.171] GRES: номер устройства графического процессора 0(/dev/nvidia0):c 195:0 rwm [2023-11-06T16:28:32.171] GRES: номер устройства графического процессора 1(/dev/nvidia1):c 195:1 rwm [2023-11-06T16:28:32.171] Gres Name=GPU Type=1080_ti Count=1 Index=2 ID=7696487 File=/dev/nvidia2 Cores=26-51 CoreCnt=52 Links=(null) Flags=HAS_FILE, HAS_TYPE, ENV_NVML, ENV_RSMI, ENV_ONEAPI, ENV_OPENCL, ENV_DEFAULT [2023-11-06T16:28:32.171] Gres Name=GPU Type=p104 Count=1 Index=0 ID=7696487 File=/dev/nvidia0 Cores=0-25 CoreCnt=52 Links=(null) Flags=HAS_FILE, HAS_TYPE, ENV_NVML, ENV_RSMI, ENV_ONEAPI, ENV_OPENCL, ENV_DEFAULT [2023-11-06T16:28:32.171] Gres Name=GPU Type=p104 Count=1 Index=1 ID=7696487 File=/dev/nvidia1 Cores=0-25 CoreCnt=52 Links=(null) Flags=HAS_FILE, HAS_TYPE, ENV_NVML, ENV_RSMI, ENV_ONEAPI, ENV_OPENCL, ENV_DEFAULT [2023-11-06T16:28:32.172] топология/нет: init: плагин топологии НЕТ загружен [2023-11-06T16:28:32.172] маршрут/по умолчанию: init: плагин маршрута по умолчанию загружен [2023-11-06T16:28:32.172] debug2: сбор информации о частоте процессора для 52 процессоров [2023-11-06T16:28:32.176] отладка: спецификация ресурса: на этом узле по умолчанию не настроено специализированных ядер. [2023-11-06T16:28:32.176] отладка: спецификация ресурса: предел зарезервированной системной памяти не настроен для этого узла [2023-11-06T16:28:32.176] отладка: задача/cgroup: init: плагин cgroup сдерживания задач загружен [2023-11-06T16:28:32.177] Task/affinity: init: плагин привязки задач загружен с маской ЦП 0xffffffffffffff [2023-11-06T16:28:32.177] отладка: шлепанье: открытие стека плагинов /etc/slurm/plugstack.conf [2023-11-06T16:28:32.178] отладка: /etc/slurm/plugstack.conf: 1: включить "/etc/slurm/plugstack.conf.d/*.conf" [2023-11-06T16:28:32.179] cred/munge: init: плагин подписи учетных данных Munge загружен [2023-11-06T16:28:32.179] Запущена версия slurmd 23.02.2 [2023-11-06T16:28:32.179] отладка: acct_gather_energy/none: init: плагин AcctGatherEnergy NONE загружен [2023-11-06T16:28:32.179] отладка: acct_gather_profile/none: init: плагин AcctGatherProfile НЕТ загружен [2023-11-06T16:28:32.179] отладка: acct_gather_interconnect/none: init: плагин AcctGatherInterconnect NONE загружен [2023-11-06T16:28:32.179] отладка: acct_gather_filesystem/none: init: плагин AcctGatherFilesystem НЕТ загружен [2023-11-06T16:28:32.179] debug2: Нет файла acct_gather.conf (/etc/slurm/acct_gather.conf) [2023-11-06T16:28:32.180] отладка: jobacct_gather/cgroup: init: плагин cgroup для учета заданий загружен [2023-11-06T16:28:32.180] отладка: job_container/none: init: job_container ни один плагин не загружен [2023-11-06T16:28:32.181] отладка: переключатель/нет: инициализация: переключатель NONE плагин загружен [2023-11-06T16:28:32.181] отладка: загружен плагин переключателя Cray/Aries. [2023-11-06T16:28:32.181] отладка: MPI: загрузка всех типов [2023-11-06T16:28:32.182] debug2: Нет файла mpi.conf (/etc/slurm/mpi.conf) [2023-11-06T16:28:32.183] slurmd начался в понедельник, 06 ноября 2023 г., 16:28:32 +0800 [2023-11-06T16:28:32.183] ЦП=52 Платы=1 Сокеты=2 ядра=26 потоков=1 Память=257390 TmpDisk=459103 Время работы=1832 CPUSpecList=(null) FeaturesAvail=(null) FeaturesActive=(null) [2023-11-06T16:28:32.200] отладка: _handle_node_reg_resp: slurmctld отправил обратно 11 TRES. Кажется, все в порядке
Но информация об узле:
$ scontrol показать башню узла NodeName=башня Arch=x86_64 CoresPerSocket=26 CPUAlloc=0 CPUEfctv=52 CPUTot=52 CPULoad=0.03 Доступные функции = графический процессор ActiveFeatures=графический процессор Грес=ГП:3(С:0-1) NodeAddr=башня NodeHostName=башня Версия=23.02.2 OS=Linux 3.10.0-1160.92.1.el7.x86_64 #1 SMP Вт, 20 июня 11:48:01 UTC 2023 RealMemory=257389 AllocMem=0 FreeMem=252880 Сокеты=2 Платы=1 State=IDLE ThreadsPerCore=1 TmpDisk=0 Вес=1 Владелец=Н/Д MCS_label=Н/Д Разделы = быстро BootTime=2023-11-06T15:58:09 SlurmdStartTime=2023-11-06T16:28:32 LastBusyTime=2023-11-06T16:28:37 ResumeAfterTime=Нет CfgTRES=cpu=52,mem=257389M,биллинг=52,gres/gpu=3 ВыделитьTRES= CapWatts=н/д ТекущиеВатты=0 AveWatts=0 ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s Почему Gres=gpu:3(S:0-1) не показывает tpye?
И когда я отправляю задание, я получаю сообщение об ошибке
# root @ контроллер в ~ [16:34:38] $ srun -p fast -w Tower --gres=gpu:1080ti:1 имя хоста srun: ошибка: невозможно выделить ресурсы: запрошенная конфигурация узла недоступна # root @ контроллер в ~ [16:34:47] C:1 $ srun -p fast -w Tower --gres=gpu:1080_ti:1 имя хоста srun: ошибка: невозможно выделить ресурсы: запрошенная конфигурация узла недоступна # root @ контроллер в ~ [16:34:50] C:1 $ srun -p fast -w Tower --gres=gpu:p104:1 имя хоста srun: ошибка: невозможно выделить ресурсы: запрошенная конфигурация узла недоступна # root @ контроллер в ~ [16:35:13] C:1 $ srun -p fast -w Tower --gres=gpu:1 имя хоста башня # root@контроллер в ~[16:35:18] $ srun -p fast -w Tower --gres=gpu:2 имя хоста башня если в slurm.conf установлено следующее, разницы нет
NodeName=tower CPUs=52 Boards=1 SocketsPerBoard=2 CoresPerSocket=26 ThreadsPerCore=1 RealMemory=257389 Features=gpu Gres=gpu:3 Еще один вопрос: когда я отправляю несколько задач, каждая из которых использует один графический процессор, я могу использовать команду htop, чтобы увидеть, что только один процессор (обычно первый процессор) работает на 100%. Как заставить разные задачи графического процессора использовать разные процессоры и как настроить привязку процессоров.
Я пытаюсь добавить видеокарту в узел slurm. Сейчас у меня два p104 и один 1080ti. У меня проблема с настройкой slurm.conf и gres.conf.
Я хочу назначить тип каждой видеокарте
Slurm.conf
SchedulerType=sched/backfill SelectType=select/cons_tres SelectTypeParameters=CR_CPU GresTypes=GPU NodeName=tower CPUs=52 Платы=1 SocketsPerBoard=2 CoresPerSocket=26 ThreadsPerCore=1 RealMemory=257389 Features=gpu Gres=gpu:1080_ti:1,gpu:p104:2 gres.conf Автоопределение=выкл. #NodeName=amd01 Name=gpu File=/dev/nvidia0 Cores=24-27 #NodeName=amd01 Имя=GPU Тип=1080_ti Файл=/dev/nvidia1 Ядра=24-27 NodeName=tower Name=GPU Type=p104 File=/dev/nvidia0 Cores=0-25 NodeName=tower Name=GPU Type=p104 File=/dev/nvidia1 Cores=0-25 Имя узла=имя башни=тип графического процессора=1080_ti Файл=/dev/nvidia2 Ядра=26-51 вот slurmd.log
[2023-11-06T16:28:32.162] отладка: файл журнала снова открыт [2023-11-06T16:28:32.166] отладка: cgroup/v1: init: загружен плагин Cgroup v1 [2023-11-06T16:28:32.171] GRES: Глобальное автоопределение = выключено (4) [2023-11-06T16:28:32.171] отладка: gres/gpu: init: загружено [2023-11-06T16:28:32.171] отладка: gpu/generic: init: init: плагин GPU Generic загружен [2023-11-06T16:28:32.171] GRES: _set_gres_device_desc: /dev/nvidia2 основной 195, второстепенный 2 [2023-11-06T16:28:32.171] GRES: _set_gres_device_desc: /dev/nvidia0 основной 195, второстепенный 0 [2023-11-06T16:28:32.171] GRES: _set_gres_device_desc: /dev/nvidia1 основной 195, второстепенный 1 [2023-11-06T16:28:32.171] GRES: номер устройства графического процессора 2(/dev/nvidia2):c 195:2 rwm [2023-11-06T16:28:32.171] GRES: номер устройства графического процессора 0(/dev/nvidia0):c 195:0 rwm [2023-11-06T16:28:32.171] GRES: номер устройства графического процессора 1(/dev/nvidia1):c 195:1 rwm [2023-11-06T16:28:32.171] Gres Name=GPU Type=1080_ti Count=1 Index=2 ID=7696487 File=/dev/nvidia2 Cores=26-51 CoreCnt=52 Links=(null) Flags=HAS_FILE, HAS_TYPE, ENV_NVML, ENV_RSMI, ENV_ONEAPI, ENV_OPENCL, ENV_DEFAULT [2023-11-06T16:28:32.171] Gres Name=GPU Type=p104 Count=1 Index=0 ID=7696487 File=/dev/nvidia0 Cores=0-25 CoreCnt=52 Links=(null) Flags=HAS_FILE, HAS_TYPE, ENV_NVML, ENV_RSMI, ENV_ONEAPI, ENV_OPENCL, ENV_DEFAULT [2023-11-06T16:28:32.171] Gres Name=GPU Type=p104 Count=1 Index=1 ID=7696487 File=/dev/nvidia1 Cores=0-25 CoreCnt=52 Links=(null) Flags=HAS_FILE, HAS_TYPE, ENV_NVML, ENV_RSMI, ENV_ONEAPI, ENV_OPENCL, ENV_DEFAULT [2023-11-06T16:28:32.172] топология/нет: init: плагин топологии НЕТ загружен [2023-11-06T16:28:32.172] маршрут/по умолчанию: init: плагин маршрута по умолчанию загружен [2023-11-06T16:28:32.172] debug2: сбор информации о частоте процессора для 52 процессоров [2023-11-06T16:28:32.176] отладка: спецификация ресурса: на этом узле по умолчанию не настроено специализированных ядер. [2023-11-06T16:28:32.176] отладка: спецификация ресурса: предел зарезервированной системной памяти не настроен для этого узла [2023-11-06T16:28:32.176] отладка: задача/cgroup: init: плагин cgroup сдерживания задач загружен [2023-11-06T16:28:32.177] Task/affinity: init: плагин привязки задач загружен с маской ЦП 0xffffffffffffff [2023-11-06T16:28:32.177] отладка: шлепанье: открытие стека плагинов /etc/slurm/plugstack.conf [2023-11-06T16:28:32.178] отладка: /etc/slurm/plugstack.conf: 1: включить "/etc/slurm/plugstack.conf.d/*.conf" [2023-11-06T16:28:32.179] cred/munge: init: плагин подписи учетных данных Munge загружен [2023-11-06T16:28:32.179] Запущена версия slurmd 23.02.2 [2023-11-06T16:28:32.179] отладка: acct_gather_energy/none: init: плагин AcctGatherEnergy NONE загружен [2023-11-06T16:28:32.179] отладка: acct_gather_profile/none: init: плагин AcctGatherProfile НЕТ загружен [2023-11-06T16:28:32.179] отладка: acct_gather_interconnect/none: init: плагин AcctGatherInterconnect NONE загружен [2023-11-06T16:28:32.179] отладка: acct_gather_filesystem/none: init: плагин AcctGatherFilesystem НЕТ загружен [2023-11-06T16:28:32.179] debug2: Нет файла acct_gather.conf (/etc/slurm/acct_gather.conf) [2023-11-06T16:28:32.180] отладка: jobacct_gather/cgroup: init: плагин cgroup для учета заданий загружен [2023-11-06T16:28:32.180] отладка: job_container/none: init: job_container ни один плагин не загружен [2023-11-06T16:28:32.181] отладка: переключатель/нет: инициализация: переключатель NONE плагин загружен [2023-11-06T16:28:32.181] отладка: загружен плагин переключателя Cray/Aries. [2023-11-06T16:28:32.181] отладка: MPI: загрузка всех типов [2023-11-06T16:28:32.182] debug2: Нет файла mpi.conf (/etc/slurm/mpi.conf) [2023-11-06T16:28:32.183] slurmd начался в понедельник, 06 ноября 2023 г., 16:28:32 +0800 [2023-11-06T16:28:32.183] ЦП=52 Платы=1 Сокеты=2 ядра=26 потоков=1 Память=257390 TmpDisk=459103 Время работы=1832 CPUSpecList=(null) FeaturesAvail=(null) FeaturesActive=(null) [2023-11-06T16:28:32.200] отладка: _handle_node_reg_resp: slurmctld отправил обратно 11 TRES. Кажется, все в порядке
Но информация об узле:
$ scontrol показать башню узла NodeName=башня Arch=x86_64 CoresPerSocket=26 CPUAlloc=0 CPUEfctv=52 CPUTot=52 CPULoad=0.03 Доступные функции = графический процессор ActiveFeatures=графический процессор Грес=ГП:3(С:0-1) NodeAddr=башня NodeHostName=башня Версия=23.02.2 OS=Linux 3.10.0-1160.92.1.el7.x86_64 #1 SMP Вт, 20 июня 11:48:01 UTC 2023 RealMemory=257389 AllocMem=0 FreeMem=252880 Сокеты=2 Платы=1 State=IDLE ThreadsPerCore=1 TmpDisk=0 Вес=1 Владелец=Н/Д MCS_label=Н/Д Разделы = быстро BootTime=2023-11-06T15:58:09 SlurmdStartTime=2023-11-06T16:28:32 LastBusyTime=2023-11-06T16:28:37 ResumeAfterTime=Нет CfgTRES=cpu=52,mem=257389M,биллинг=52,gres/gpu=3 ВыделитьTRES= CapWatts=н/д ТекущиеВатты=0 AveWatts=0 ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s Почему Gres=gpu:3(S:0-1) не показывает tpye?
И когда я отправляю задание, я получаю сообщение об ошибке
# root @ контроллер в ~ [16:34:38] $ srun -p fast -w Tower --gres=gpu:1080ti:1 имя хоста srun: ошибка: невозможно выделить ресурсы: запрошенная конфигурация узла недоступна # root @ контроллер в ~ [16:34:47] C:1 $ srun -p fast -w Tower --gres=gpu:1080_ti:1 имя хоста srun: ошибка: невозможно выделить ресурсы: запрошенная конфигурация узла недоступна # root @ контроллер в ~ [16:34:50] C:1 $ srun -p fast -w Tower --gres=gpu:p104:1 имя хоста srun: ошибка: невозможно выделить ресурсы: запрошенная конфигурация узла недоступна # root @ контроллер в ~ [16:35:13] C:1 $ srun -p fast -w Tower --gres=gpu:1 имя хоста башня # root@контроллер в ~[16:35:18] $ srun -p fast -w Tower --gres=gpu:2 имя хоста башня если в slurm.conf установлено следующее, разницы нет
NodeName=tower CPUs=52 Boards=1 SocketsPerBoard=2 CoresPerSocket=26 ThreadsPerCore=1 RealMemory=257389 Features=gpu Gres=gpu:3 Еще один вопрос: когда я отправляю несколько задач, каждая из которых использует один графический процессор, я могу использовать команду htop, чтобы увидеть, что только один процессор (обычно первый процессор) работает на 100%. Как заставить разные задачи графического процессора использовать разные процессоры и как настроить привязку процессоров.
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Как установить конкретные процессоры, используемые очередью SLURM на определенном узле
Anonymous » » в форуме Linux - 0 Ответы
- 31 Просмотры
-
Последнее сообщение Anonymous
-