Обучение YOLOv8 с помощью Slurm Job на графическом процессоре A100 приводит к ошибке сегментации через 4 эпохиPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Обучение YOLOv8 с помощью Slurm Job на графическом процессоре A100 приводит к ошибке сегментации через 4 эпохи

Сообщение Anonymous »

Я обучаю модель YOLOv8 с нуля на графическом процессоре A100 с помощью Slurm, но через несколько эпох обнаружил ошибку сегментации. Вот моя настройка и соответствующий код:

Код: Выделить всё

from ultralytics import YOLO

# Load model
model = YOLO("yolov8n.yaml")

# Train model
results = model.train(
data="/home/alam-trainee_08/scratch3/insect_detection/A_dataset/data/data copy.yaml",
epochs=4, #this is orginally 50 but since it errors at 4 i just changed it
workers=1,
batch=8,
)
Сценарий Slurm:

Код: Выделить всё

#!/bin/bash
#SBATCH --partition=gpu_a100
#SBATCH --qos=32c-7d_1gpu_a100_alam_asti
#SBATCH --job-name=a100
#SBATCH --nodes=1
#SBATCH --ntasks=1
#SBATCH --gres=gpu:1
#SBATCH --mem=32G
#SBATCH --output=pretrained.out
#SBATCH --error=pretrained.err

module purge
module load anaconda/3-2023.07-2
conda activate norb

nvidia-smi
python --version
conda list

srun python /home/alam-trainee_08/scratch3/insect_detection/A_dataset/data/A_pretrained.py
Через несколько эпох задание завершается с ошибкой со следующим выводом в pretrained.out и pretrained.err:

Код: Выделить всё

Error while loading conda entry point: conda-libmamba-solver (libarchive.so.13: cannot open shared object file: No such file or directory)

[34m[1mtrain: [0mScanning /scratch3/alam-trainee_08/insect_detection/A_dataset/data/labels.cache... 300 images, 0 backgrounds, 0 corrupt: 100%|██████████| 300/300 [00:00

Подробнее здесь: [url]https://stackoverflow.com/questions/79169308/yolov8-training-with-slurm-job-on-a100-gpu-results-in-segmentation-fault-after-4[/url]
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»