Служба SLURM slurmd не запускается в кластере Raspberry Pi 5 из-за ошибок анализа cgroup.confLinux

Ответить
Anonymous
 Служба SLURM slurmd не запускается в кластере Raspberry Pi 5 из-за ошибок анализа cgroup.conf

Сообщение Anonymous »

У меня есть кластер Raspberry Pi 5 с главным узлом и рабочим узлом. Я успешно установил SLURM на главном узле и в настоящее время пытаюсь настроить демон slurmd для работы на рабочем узле.
Проблема
После настройки SLURM я включил и запустил службу slurmd на главном узле с помощью следующих команд:
sudo systemctl enable slurmd
sudo systemctl start slurmd
sudo systemctl status slurmd

Однако служба slurmd не запускается со следующим сообщением об ошибке:
× slurmd.service - Slurm node daemon
Loaded: loaded (/lib/systemd/system/slurmd.service; enabled; preset: enabled)
Active: failed (Result: exit-code) since Sat 2024-10-26 23:03:46 CEST; 24min ago
Duration: 5ms
Docs: man:slurmd(8)
Process: 2026 ExecStart=/usr/sbin/slurmd -D -s $SLURMD_OPTIONS (code=exited, status=1/FAILURE)
Main PID: 2026 (code=exited, status=1/FAILURE)
CPU: 5ms

Oct 26 23:03:46 master systemd[1]: Started slurmd.service - Slurm node daemon.
Oct 26 23:03:46 master slurmd[2026]: slurmd: error: _parse_next_key: Parsing error at unrecognized key: TaskA>
Oct 26 23:03:46 master slurmd[2026]: slurmd: fatal: Could not open/read/parse cgroup.conf file /etc/slurm/cgr>
Oct 26 23:03:46 master slurmd[2026]: error: _parse_next_key: Parsing error at unrecognized key: TaskAffinity
Oct 26 23:03:46 master slurmd[2026]: fatal: Could not open/read/parse cgroup.conf file /etc/slurm/cgroup.conf
Oct 26 23:03:46 master systemd[1]: slurmd.service: Main process exited, code=exited, status=1/FAILURE
Oct 26 23:03:46 master systemd[1]: slurmd.service: Failed with result 'exit-code'.

Мой текущий файл cgroup.conf выглядит следующим образом:
CgroupMountpoint="/sys/fs/cgroup"
CgroupAutomount=yes
CgroupReleaseAgentDir="/etc/slurm/cgroup"
AllowedDevicesFile="/etc/slurm/cgroup_allowed_devices_file.conf"
ConstrainCores=no
TaskAffinity=yes
ConstrainRAMSpace=yes
ConstrainSwapSpace=no
ConstrainDevices=no
AllowedRamSpace=100
AllowedSwapSpace=0
MaxRAMPercent=100
MaxSwapPercent=100
MinRAMSpace=30

Вопросы
How do I correct the errors in cgroup.conf that lead to the parsing errors mentioned in the logs?
Are there specific configurations required for SLURM to work correctly with Raspberry Pi 5 and its architecture?
What are the common causes for the high latency error reported in SLURM, and how can I address them?

Будем благодарны за любые рекомендации и предложения!
Проверено, что Munge работает правильно:
ssh pi@node01 munge -n

Checked the status of the slurmctld service on the master node, which is also reported as down.
Investigated the cgroup.conf for parsing errors.


Подробнее здесь: https://stackoverflow.com/questions/791 ... group-conf
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Linux»