Обучение Yolov9E-SEG на 6 A100-80G и попытался оптимизировать столько, сколько я мог, но после стадии проверки появляетс

Обучение Yolov9E-SEG на 6 A100-80G и попытался оптимизировать столько, сколько я мог, но после стадии проверки появляетс ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Обучение Yolov9E-SEG на 6 A100-80G и попытался оптимизировать столько, сколько я мог, но после стадии проверки появляетс

Цитата

Сообщение Anonymous » 13 фев 2025, 18:31

Я пытаюсь обучить модель Yolov9e-SEG на 336 общих изображений размера 4096x4096, которые были разделены в поезде и Val в соотношении 80:20. Ранее у меня были ошибки даже из учебной части, но с некоторыми оптимизациями в параметрах метода поезда я смог преодолеть эту ошибку. Я не уверен, но проверка была сделана несколько более старой версии моего кода, а затем для какого -то шага я использовал эту ошибку, но в текущей версии программа не выполняется на шаге проверки с программой, дает «Torch.outofmemoryerr: Ошибка CUDA OUT MEMOME. Код для обучения ниже: < /p>

Код: Выделить всё

import os
import torch
import atexit
import gc
from ultralytics import YOLO
from torch.nn import DataParallel

# Remap GPUs to a contiguous set using CUDA_VISIBLE_DEVICES.
# For example, if you want to use physical GPUs 0, 1, 3, 4, 5, 6:
os.environ["CUDA_VISIBLE_DEVICES"] = "0,1,3,4,5,6"

# Set environment variable to help reduce memory fragmentation.
os.environ['PYTORCH_CUDA_ALLOC_CONF'] = 'expandable_segments:True'

# Function to clear GPU memory.
def clear_gpu_memory():
torch.cuda.empty_cache()
torch.cuda.reset_peak_memory_stats()

# Ensure that GPU memory is cleared on exit.
atexit.register(clear_gpu_memory)

# Load the pretrained YOLOv9 segmentation model and compile it.
model = YOLO("yolov9e-seg.pt")
model.model = torch.compile(model.model)

try:
# Train the model with your specified parameters.
model.train(
data='training_data/brain_data.yaml',
epochs=2,
imgsz=4096,
batch=6,
project='brain_segmentation',
name='testrun',
device=[0, 1, 3, 4, 5, 6],
close_mosaic=1,
save_period=1,
amp=True,
cache=False,
overlap_mask=False,
workers=4,
)

# If available, try deleting the optimizer to free memory.
try:
del model.optimizer
except AttributeError:
pass

# Force garbage collection and clear cached GPU memory after training.
gc.collect()
torch.cuda.empty_cache()

# Get the number of GPUs now visible (they are renumbered from 0 to N-1).
available_gpus = torch.cuda.device_count()
print(f"Available GPUs (contiguous numbering): {list(range(available_gpus))}")

# Wrap the model in DataParallel for training.
model.model = DataParallel(model.model, device_ids=list(range(available_gpus)))
model.model.to('cuda')

# --- Before validation, unwrap and fuse the model ---
# The fused model is expected to be used on a single device, so we unwrap the DataParallel container.
if isinstance(model.model, DataParallel):
# Unwrap and call the underlying fuse() method.
fused_module = model.model.module.fuse(verbose=False)
model.model = fused_module
else:
model.model = model.model.fuse(verbose=False)

print("Model fused.")

# Validate using memory optimizations:
# - torch.inference_mode() to disable gradient tracking.
# - torch.amp.autocast with device_type='cuda' for mixed-precision inference.
with torch.inference_mode():
with torch.amp.autocast(device_type='cuda'):
model.val(
device=list(range(available_gpus)),
batch=6,
imgsz=4096
)

print("Validation complete.")

# Export the fused model to ONNX (typically done on a single GPU).
model.export(
device=0,
imgsz=4096,
half=True,
simplify=True,
opset=12
)

except KeyboardInterrupt:
print("Training interrupted. Clearing GPU memory...")
clear_gpu_memory()
raise

except Exception as e:
print(f"An error occurred: {e}.  Clearing GPU memory...")
clear_gpu_memory()
raise

Мой файл конфигурации - training_data/brain_data.yaml:
path: work_my/new_yolo_4096/training_data
train:
- images/train # Path to training images
- labels/train # Path to training annotations
val:
- images/val # Path to validation images
- labels/val # Path to validation annotations

nc: 25
names: ['Thalamus', 'Caudate nucleus', 'Putamen', 'Globus pallidus', 'Nucleus accumbens', 'Internal capsule', 'Substantia innominata', 'Fornix', 'Anterior commissure', 'Ganglionic eminence', 'Hypothalamus', 'Amygdala', 'Hippocampus', 'Choroid plexus', 'Lateral ventricle', 'Olfactory tubercle', 'Pretectum', 'Inferior colliculus', 'Superior colliculus', 'Tegmentum', 'Pons', 'Medulla', 'Cerebellum', 'Corpus callosum', 'Cerebral cortex']
< /code>
Некоторые точки: < /p>

[*] Мои учебные данные правильно подготовлены, и нет проблем в этой части загрузки Данные или проблема неправильных путей в конфигурации
[*] Я хочу обучить свою модель по тому же разрешению 4096x4096, поэтому, пожалуйста, не предлагайте уменьшить размер изображения.
Размер партии должен быть равен количеству устройств, поэтому минимум составляет 6, так что держали то же самое, нельзя уменьшить. память) < /li>
Все графические процессоры пусты, и никакая другая программа не было принято. Обучение завершается в этой части: < /p>
Starting training for 2 epochs...

Epoch GPU_mem box_loss seg_loss cls_loss dfl_loss Instances Size
1/2 81G 2.821 6.069 54.57 2.973 30 4096: 100%|██████████| 45/45 [00:56

Подробнее здесь: https://stackoverflow.com/questions/794 ... -could-but

1739460716

Anonymous

 Я пытаюсь обучить модель Yolov9e-SEG на 336 общих изображений размера 4096x4096, которые были разделены в поезде и Val в соотношении 80:20. Ранее у меня были ошибки даже из учебной части, но с некоторыми оптимизациями в параметрах метода поезда я смог преодолеть эту ошибку. Я не уверен, но проверка была сделана несколько более старой версии моего кода, а затем для какого -то шага я использовал эту ошибку, но в текущей версии программа не выполняется на шаге проверки с программой, дает «Torch.outofmemoryerr: Ошибка CUDA OUT MEMOME. Код для обучения ниже: < /p>
[code]import os
import torch
import atexit
import gc
from ultralytics import YOLO
from torch.nn import DataParallel

# Remap GPUs to a contiguous set using CUDA_VISIBLE_DEVICES.
# For example, if you want to use physical GPUs 0, 1, 3, 4, 5, 6:
os.environ["CUDA_VISIBLE_DEVICES"] = "0,1,3,4,5,6"

# Set environment variable to help reduce memory fragmentation.
os.environ['PYTORCH_CUDA_ALLOC_CONF'] = 'expandable_segments:True'

# Function to clear GPU memory.
def clear_gpu_memory():
torch.cuda.empty_cache()
torch.cuda.reset_peak_memory_stats()

# Ensure that GPU memory is cleared on exit.
atexit.register(clear_gpu_memory)

# Load the pretrained YOLOv9 segmentation model and compile it.
model = YOLO("yolov9e-seg.pt")
model.model = torch.compile(model.model)

try:
# Train the model with your specified parameters.
model.train(
data='training_data/brain_data.yaml',
epochs=2,
imgsz=4096,
batch=6,
project='brain_segmentation',
name='testrun',
device=[0, 1, 3, 4, 5, 6],
close_mosaic=1,
save_period=1,
amp=True,
cache=False,
overlap_mask=False,
workers=4,
)

# If available, try deleting the optimizer to free memory.
try:
del model.optimizer
except AttributeError:
pass

# Force garbage collection and clear cached GPU memory after training.
gc.collect()
torch.cuda.empty_cache()

# Get the number of GPUs now visible (they are renumbered from 0 to N-1).
available_gpus = torch.cuda.device_count()
print(f"Available GPUs (contiguous numbering): {list(range(available_gpus))}")

# Wrap the model in DataParallel for training.
model.model = DataParallel(model.model, device_ids=list(range(available_gpus)))
model.model.to('cuda')

# --- Before validation, unwrap and fuse the model ---
# The fused model is expected to be used on a single device, so we unwrap the DataParallel container.
if isinstance(model.model, DataParallel):
# Unwrap and call the underlying fuse() method.
fused_module = model.model.module.fuse(verbose=False)
model.model = fused_module
else:
model.model = model.model.fuse(verbose=False)

print("Model fused.")

# Validate using memory optimizations:
# - torch.inference_mode() to disable gradient tracking.
# - torch.amp.autocast with device_type='cuda' for mixed-precision inference.
with torch.inference_mode():
with torch.amp.autocast(device_type='cuda'):
model.val(
device=list(range(available_gpus)),
batch=6,
imgsz=4096
)

print("Validation complete.")

# Export the fused model to ONNX (typically done on a single GPU).
model.export(
device=0,
imgsz=4096,
half=True,
simplify=True,
opset=12
)

except KeyboardInterrupt:
print("Training interrupted. Clearing GPU memory...")
clear_gpu_memory()
raise

except Exception as e:
print(f"An error occurred: {e}.  Clearing GPU memory...")
clear_gpu_memory()
raise
[/code]
Мой файл конфигурации - training_data/brain_data.yaml: 
path: work_my/new_yolo_4096/training_data
train:
- images/train  # Path to training images
- labels/train  # Path to training annotations
val:
- images/val  # Path to validation images
- labels/val  # Path to validation annotations

nc: 25
names: ['Thalamus', 'Caudate nucleus', 'Putamen', 'Globus pallidus', 'Nucleus accumbens', 'Internal capsule', 'Substantia innominata', 'Fornix', 'Anterior commissure', 'Ganglionic eminence', 'Hypothalamus', 'Amygdala', 'Hippocampus', 'Choroid plexus', 'Lateral ventricle', 'Olfactory tubercle', 'Pretectum', 'Inferior colliculus', 'Superior colliculus', 'Tegmentum', 'Pons', 'Medulla', 'Cerebellum', 'Corpus callosum', 'Cerebral cortex']
< /code>
Некоторые точки: < /p>

[*] Мои учебные данные правильно подготовлены, и нет проблем в этой части загрузки Данные или проблема неправильных путей в конфигурации
[*] Я хочу обучить свою модель по тому же разрешению 4096x4096, поэтому, пожалуйста, не предлагайте уменьшить размер изображения.
 Размер партии должен быть равен количеству устройств, поэтому минимум составляет 6, так что держали то же самое, нельзя уменьшить. память) < /li>
 Все графические процессоры пусты, и никакая другая программа не было принято. Обучение завершается в этой части: < /p>
Starting training for 2 epochs...

Epoch GPU_mem box_loss seg_loss cls_loss dfl_loss Instances Size
1/2 81G 2.821 6.069 54.57 2.973 30 4096: 100%|██████████| 45/45 [00:56

Подробнее здесь: [url]https://stackoverflow.com/questions/79436107/yolov9e-seg-training-on-6-a100-80g-and-tried-to-optimize-as-much-as-i-could-but[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Обучение YOLOv8 с помощью Slurm Job на графическом процессоре A100 приводит к ошибке сегментации через 4 эпохи

Последнее сообщение Anonymous « 08 ноя 2024, 11:44
Добавлено в форуме Python

Anonymous » 08 ноя 2024, 11:44 » в форуме Python

Я обучаю модель YOLOv8 с нуля на графическом процессоре A100 с помощью Slurm, но через несколько эпох обнаружил ошибку сегментации. Вот моя настройка и соответствующий код:
from ultralytics import YOLO

# Load model
model = YOLO( yolov8n.yaml )

#...

0 Ответы

24 Просмотры

Последнее сообщение Anonymous
08 ноя 2024, 11:44
Flex — элемент должен занимать столько же места, сколько и текст.

Последнее сообщение Anonymous « 28 июн 2024, 20:20
Добавлено в форуме CSS

Anonymous » 28 июн 2024, 20:20 » в форуме CSS

У меня есть гибкий контейнер и 2 элемента. Голубой элемент имеет несколько диапазонов. Чего я хотел бы добиться, так это сделать максимальную ширину голубого элемента такой же большой, как и текстовые интервалы. И гибкий элемент также должен быть...

0 Ответы

35 Просмотры

Последнее сообщение Anonymous
28 июн 2024, 20:20
Почему функции не рекурсивно выполняют столько раз, сколько установлено с помощью sys.setrecursionlimit()?

Последнее сообщение Anonymous « 18 сен 2024, 16:59
Добавлено в форуме Python

Anonymous » 18 сен 2024, 16:59 » в форуме Python

Я понимаю, что sys.setrecursionlimit работает следующим образом:

Установите максимальную глубину стека интерпретатора Python равным limit . Это ограничение не позволяет бесконечной рекурсии вызывать переполнение стека C и сбой Python.
Наивысший...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
18 сен 2024, 16:59
Jetpack Составляйте многострочные тексты, занимающие столько места, сколько необходимо, но равное место, если они больши

Последнее сообщение Anonymous « 25 окт 2024, 13:21
Добавлено в форуме Android

Anonymous » 25 окт 2024, 13:21 » в форуме Android

Как в Jetpack Compose разместить два текста рядом друг с другом, занимая доступную ширину, но если они оба не помещаются в одну строку, тот, который больше 50%, должен стать многострочным. Тогда, если оба слишком велики, они должны занимать...

0 Ответы

33 Просмотры

Последнее сообщение Anonymous
25 окт 2024, 13:21
CSS Challenge: пусть контейнер займет только столько места, сколько (встроенные) дети

Последнее сообщение Anonymous « 13 мар 2025, 19:58
Добавлено в форуме CSS

Anonymous » 13 мар 2025, 19:58 » в форуме CSS

У меня есть навигация на вершине изображения. Контейнер навигации составляет черный 50%.
для меньших размеров экрана я хотел бы, чтобы контейнер навигации занимал только столько места, сколько и у детей, и не оставаться на 100%.
Я не хочу...

0 Ответы

40 Просмотры

Последнее сообщение Anonymous
13 мар 2025, 19:58

Вернуться в «Python»