Я провожу тренировку в довольно простой сети глубокого обучения (~ 800 КБ).
lstm с 2 слоями и 128 нейронами,
подайте вперед с 2 линейными слоями и 64 нейронами,
final Поправьте вперед 2 линейными слоями и 64 нейронами,
Тем не менее, я получаю низкое использование графического процессора на уровне около 45% и 140 Вт, когда я смотрю на Nvidia-SMI на моем RTX 6000 < Br /> Я не уверен, почему это так, так как не должно быть узких мест, так как все данные загружаются в память, и я отправил тензоры прямо в графический процессор. Таким образом, графический процессор делает перетасовку и нарезает размеры партий (ранее я делал это на процессоре (64 Core Ryzen Threadripper), но процессор был максимальен, так что это было узкое место). < /P>
С 2 миллионами входов (~ 1000 функций каждый вход), он использует около 18 ГБ памяти графического процессора из 24 ГБ на моем RTX 6000 < /p>
Я использую размер партии 1024, и он принимает около 60 секунд эпоха. Кажется, скорость тренировок линейна с размером партии, так как при 512 это было около 120 секунд, а 2048 года составляла 33 секунды.
Мой вперед /обратный проход - это стандартная реализация Pytorch. < /P>
Я добавил в torch.cuda.amp.autocast/gradscaler. и torch.backends.cudnn.benchmark = true, мое использование и мощность, когда время на эпоху оставалось прежним.
i Интересно, можете ли вы помочь мне устранение неполадок, поскольку мне нужно как можно быстрее обучить эту модель. Я также столкнусь с проблемой в линии того, чтобы иметь слишком много данных, чтобы вписаться в графический процессор (но поместясь в оперативной памяти), так что любая помощь в эффективном решении также будет оценена. Ранее я использовал DataLoaders/DataSet, но он был очень медленно, даже медленнее с Pinnd_memory и Num_workers> 0.
Спасибо! Дайте мне знать, если требуется дополнительная информация
Подробнее здесь: https://stackoverflow.com/questions/793 ... ottlenecks
Низкое использование графического процессора на пироге без очевидных узких мест ⇐ Python
Программы на Python
1737831005
Anonymous
Я провожу тренировку в довольно простой сети глубокого обучения (~ 800 КБ).
lstm с 2 слоями и 128 нейронами,
подайте вперед с 2 линейными слоями и 64 нейронами,
final Поправьте вперед 2 линейными слоями и 64 нейронами,
Тем не менее, я получаю низкое использование графического процессора на уровне около 45% и 140 Вт, когда я смотрю на Nvidia-SMI на моем RTX 6000 < Br /> Я не уверен, почему это так, так как не должно быть узких мест, так как все данные загружаются в память, и я отправил тензоры прямо в графический процессор. Таким образом, графический процессор делает перетасовку и нарезает размеры партий (ранее я делал это на процессоре (64 Core Ryzen Threadripper), но процессор был максимальен, так что это было узкое место). < /P>
С 2 миллионами входов (~ 1000 функций каждый вход), он использует около 18 ГБ памяти графического процессора из 24 ГБ на моем RTX 6000 < /p>
Я использую размер партии 1024, и он принимает около 60 секунд эпоха. Кажется, скорость тренировок линейна с размером партии, так как при 512 это было около 120 секунд, а 2048 года составляла 33 секунды.
Мой вперед /обратный проход - это стандартная реализация Pytorch. < /P>
Я добавил в torch.cuda.amp.autocast/gradscaler. и torch.backends.cudnn.benchmark = true, мое использование и мощность, когда время на эпоху оставалось прежним.
i Интересно, можете ли вы помочь мне устранение неполадок, поскольку мне нужно как можно быстрее обучить эту модель. Я также столкнусь с проблемой в линии того, чтобы иметь слишком много данных, чтобы вписаться в графический процессор (но поместясь в оперативной памяти), так что любая помощь в эффективном решении также будет оценена. Ранее я использовал DataLoaders/DataSet, но он был очень медленно, даже медленнее с Pinnd_memory и Num_workers> 0.
Спасибо! Дайте мне знать, если требуется дополнительная информация
Подробнее здесь: [url]https://stackoverflow.com/questions/79387312/low-gpu-utilization-on-pytorch-without-obvious-bottlenecks[/url]
Ответить
1 сообщение
• Страница 1 из 1
Перейти
- Кемерово-IT
- ↳ Javascript
- ↳ C#
- ↳ JAVA
- ↳ Elasticsearch aggregation
- ↳ Python
- ↳ Php
- ↳ Android
- ↳ Html
- ↳ Jquery
- ↳ C++
- ↳ IOS
- ↳ CSS
- ↳ Excel
- ↳ Linux
- ↳ Apache
- ↳ MySql
- Детский мир
- Для души
- ↳ Музыкальные инструменты даром
- ↳ Печатная продукция даром
- Внешняя красота и здоровье
- ↳ Одежда и обувь для взрослых даром
- ↳ Товары для здоровья
- ↳ Физкультура и спорт
- Техника - даром!
- ↳ Автомобилистам
- ↳ Компьютерная техника
- ↳ Плиты: газовые и электрические
- ↳ Холодильники
- ↳ Стиральные машины
- ↳ Телевизоры
- ↳ Телефоны, смартфоны, плашеты
- ↳ Швейные машинки
- ↳ Прочая электроника и техника
- ↳ Фототехника
- Ремонт и интерьер
- ↳ Стройматериалы, инструмент
- ↳ Мебель и предметы интерьера даром
- ↳ Cантехника
- Другие темы
- ↳ Разное даром
- ↳ Давай меняться!
- ↳ Отдам\возьму за копеечку
- ↳ Работа и подработка в Кемерове
- ↳ Давай с тобой поговорим...
Мобильная версия