Я провожу тренировку в довольно простой сети глубокого обучения (~ 800 КБ).
lstm с 2 слоями и 128 нейронами,
подайте вперед с 2 линейными слоями и 64 нейронами,
final Поправьте вперед 2 линейными слоями и 64 нейронами,
Тем не менее, я получаю низкое использование графического процессора на уровне около 45% и 140 Вт, когда я смотрю на Nvidia-SMI на моем RTX 6000 < Br /> Я не уверен, почему это так, так как не должно быть узких мест, так как все данные загружаются в память, и я отправил тензоры прямо в графический процессор. Таким образом, графический процессор делает перетасовку и нарезает размеры партий (ранее я делал это на процессоре (64 Core Ryzen Threadripper), но процессор был максимальен, так что это было узкое место). < /P>
С 2 миллионами входов (~ 1000 функций каждый вход), он использует около 18 ГБ памяти графического процессора из 24 ГБ на моем RTX 6000 < /p>
Я использую размер партии 1024, и он принимает около 60 секунд эпоха. Кажется, скорость тренировок линейна с размером партии, так как при 512 это было около 120 секунд, а 2048 года составляла 33 секунды.
Мой вперед /обратный проход - это стандартная реализация Pytorch. < /P>
Я добавил в torch.cuda.amp.autocast/gradscaler. и torch.backends.cudnn.benchmark = true, мое использование и мощность, когда время на эпоху оставалось прежним.
i Интересно, можете ли вы помочь мне устранение неполадок, поскольку мне нужно как можно быстрее обучить эту модель. Я также столкнусь с проблемой в линии того, чтобы иметь слишком много данных, чтобы вписаться в графический процессор (но поместясь в оперативной памяти), так что любая помощь в эффективном решении также будет оценена. Ранее я использовал DataLoaders/DataSet, но он был очень медленно, даже медленнее с Pinnd_memory и Num_workers> 0.
Спасибо! Дайте мне знать, если требуется дополнительная информация
Подробнее здесь: https://stackoverflow.com/questions/793 ... ottlenecks
Низкое использование графического процессора на пироге без очевидных узких мест ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Как я могу синхронизировать черные списки JWT в микросервисах PHP без узких мест или SPOF?
Anonymous » » в форуме Php - 0 Ответы
- 11 Просмотры
-
Последнее сообщение Anonymous
-