Низкое использование графического процессора на пироге без очевидных узких мест

Низкое использование графического процессора на пироге без очевидных узких мест ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Низкое использование графического процессора на пироге без очевидных узких мест

Цитата

Сообщение Anonymous » 25 янв 2025, 21:50

Я провожу тренировку в довольно простой сети глубокого обучения (~ 800 КБ).
lstm с 2 слоями и 128 нейронами,
подайте вперед с 2 линейными слоями и 64 нейронами,
final Поправьте вперед 2 линейными слоями и 64 нейронами,
Тем не менее, я получаю низкое использование графического процессора на уровне около 45% и 140 Вт, когда я смотрю на Nvidia-SMI на моем RTX 6000 < Br /> Я не уверен, почему это так, так как не должно быть узких мест, так как все данные загружаются в память, и я отправил тензоры прямо в графический процессор. Таким образом, графический процессор делает перетасовку и нарезает размеры партий (ранее я делал это на процессоре (64 Core Ryzen Threadripper), но процессор был максимальен, так что это было узкое место). < /P>
С 2 миллионами входов (~ 1000 функций каждый вход), он использует около 18 ГБ памяти графического процессора из 24 ГБ на моем RTX 6000 < /p>
Я использую размер партии 1024, и он принимает около 60 секунд эпоха. Кажется, скорость тренировок линейна с размером партии, так как при 512 это было около 120 секунд, а 2048 года составляла 33 секунды.
Мой вперед /обратный проход - это стандартная реализация Pytorch. < /P>
Я добавил в torch.cuda.amp.autocast/gradscaler. и torch.backends.cudnn.benchmark = true, мое использование и мощность, когда время на эпоху оставалось прежним.
i Интересно, можете ли вы помочь мне устранение неполадок, поскольку мне нужно как можно быстрее обучить эту модель. Я также столкнусь с проблемой в линии того, чтобы иметь слишком много данных, чтобы вписаться в графический процессор (но поместясь в оперативной памяти), так что любая помощь в эффективном решении также будет оценена. Ранее я использовал DataLoaders/DataSet, но он был очень медленно, даже медленнее с Pinnd_memory и Num_workers> 0.
Спасибо! Дайте мне знать, если требуется дополнительная информация

Подробнее здесь: https://stackoverflow.com/questions/793 ... ottlenecks

1737831005

Anonymous

 Я провожу тренировку в довольно простой сети глубокого обучения (~ 800 КБ).
lstm с 2 слоями и 128 нейронами,
подайте вперед с 2 линейными слоями и 64 нейронами,
final Поправьте вперед 2 линейными слоями и 64 нейронами, 
Тем не менее, я получаю низкое использование графического процессора на уровне около 45% и 140 Вт, когда я смотрю на Nvidia-SMI на моем RTX 6000  < Br />  Я не уверен, почему это так, так как не должно быть узких мест, так как все данные загружаются в память, и я отправил тензоры прямо в графический процессор. Таким образом, графический процессор делает перетасовку и нарезает размеры партий (ранее я делал это на процессоре (64 Core Ryzen Threadripper), но процессор был максимальен, так что это было узкое место). < /P>
С 2 миллионами входов (~ 1000 функций каждый вход), он использует около 18 ГБ памяти графического процессора из 24 ГБ на моем RTX 6000 < /p>
Я использую размер партии 1024, и он принимает около 60 секунд эпоха. Кажется, скорость тренировок линейна с размером партии, так как при 512 это было около 120 секунд, а 2048 года составляла 33 секунды.
Мой вперед /обратный проход - это стандартная реализация Pytorch. < /P>
Я добавил в torch.cuda.amp.autocast/gradscaler. и torch.backends.cudnn.benchmark = true, мое использование и мощность, когда время на эпоху оставалось прежним.
i Интересно, можете ли вы помочь мне устранение неполадок, поскольку мне нужно как можно быстрее обучить эту модель. Я также столкнусь с проблемой в линии того, чтобы иметь слишком много данных, чтобы вписаться в графический процессор (но поместясь в оперативной памяти), так что любая помощь в эффективном решении также будет оценена. Ранее я использовал DataLoaders/DataSet, но он был очень медленно, даже медленнее с Pinnd_memory и Num_workers> 0. 
Спасибо! Дайте мне знать, если требуется дополнительная информация  

Подробнее здесь: [url]https://stackoverflow.com/questions/79387312/low-gpu-utilization-on-pytorch-without-obvious-bottlenecks[/url]