Обучение YOLOv8 с помощью Slurm Job на графическом процессоре A100 приводит к ошибке сегментации через 4 эпохи

Обучение YOLOv8 с помощью Slurm Job на графическом процессоре A100 приводит к ошибке сегментации через 4 эпохи ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Обучение YOLOv8 с помощью Slurm Job на графическом процессоре A100 приводит к ошибке сегментации через 4 эпохи

Цитата

Сообщение Anonymous » 08 ноя 2024, 11:44

Я обучаю модель YOLOv8 с нуля на графическом процессоре A100 с помощью Slurm, но через несколько эпох обнаружил ошибку сегментации. Вот моя настройка и соответствующий код:

Код: Выделить всё

from ultralytics import YOLO

# Load model
model = YOLO("yolov8n.yaml")

# Train model
results = model.train(
data="/home/alam-trainee_08/scratch3/insect_detection/A_dataset/data/data copy.yaml",
epochs=4, #this is orginally 50 but since it errors at 4 i just changed it
workers=1,
batch=8,
)

Сценарий Slurm:

Код: Выделить всё

#!/bin/bash
#SBATCH --partition=gpu_a100
#SBATCH --qos=32c-7d_1gpu_a100_alam_asti
#SBATCH --job-name=a100
#SBATCH --nodes=1
#SBATCH --ntasks=1
#SBATCH --gres=gpu:1
#SBATCH --mem=32G
#SBATCH --output=pretrained.out
#SBATCH --error=pretrained.err

module purge
module load anaconda/3-2023.07-2
conda activate norb

nvidia-smi
python --version
conda list

srun python /home/alam-trainee_08/scratch3/insect_detection/A_dataset/data/A_pretrained.py

Через несколько эпох задание завершается с ошибкой со следующим выводом в pretrained.out и pretrained.err:

Код: Выделить всё

Error while loading conda entry point: conda-libmamba-solver (libarchive.so.13: cannot open shared object file: No such file or directory)

[34m[1mtrain: [0mScanning /scratch3/alam-trainee_08/insect_detection/A_dataset/data/labels.cache... 300 images, 0 backgrounds, 0 corrupt: 100%|██████████| 300/300 [00:00

Подробнее здесь: [url]https://stackoverflow.com/questions/79169308/yolov8-training-with-slurm-job-on-a100-gpu-results-in-segmentation-fault-after-4[/url]

1731055491

Anonymous

Я обучаю модель YOLOv8 с нуля на графическом процессоре A100 с помощью Slurm, но через несколько эпох обнаружил ошибку сегментации. Вот моя настройка и соответствующий код:
[code]from ultralytics import YOLO

# Load model
model = YOLO("yolov8n.yaml")

# Train model
results = model.train(
data="/home/alam-trainee_08/scratch3/insect_detection/A_dataset/data/data copy.yaml",
epochs=4, #this is orginally 50 but since it errors at 4 i just changed it
workers=1,
batch=8,
)
[/code]
Сценарий Slurm:
[code]#!/bin/bash
#SBATCH --partition=gpu_a100
#SBATCH --qos=32c-7d_1gpu_a100_alam_asti
#SBATCH --job-name=a100
#SBATCH --nodes=1
#SBATCH --ntasks=1
#SBATCH --gres=gpu:1
#SBATCH --mem=32G
#SBATCH --output=pretrained.out
#SBATCH --error=pretrained.err

module purge
module load anaconda/3-2023.07-2
conda activate norb

nvidia-smi
python --version
conda list

srun python /home/alam-trainee_08/scratch3/insect_detection/A_dataset/data/A_pretrained.py
[/code]
Через несколько эпох задание завершается с ошибкой со следующим выводом в pretrained.out и pretrained.err:
[code]Error while loading conda entry point: conda-libmamba-solver (libarchive.so.13: cannot open shared object file: No such file or directory)

[34m[1mtrain: [0mScanning /scratch3/alam-trainee_08/insect_detection/A_dataset/data/labels.cache... 300 images, 0 backgrounds, 0 corrupt: 100%|██████████| 300/300 [00:00

Подробнее здесь: [url]https://stackoverflow.com/questions/79169308/yolov8-training-with-slurm-job-on-a100-gpu-results-in-segmentation-fault-after-4[/url]