Я обучаю NN в Pytorch, сравнивая производительность DP (параллельные данные) и DDP (параллельные распределенные данные). Хотя точность в режиме обучения почти одинакова для обучения DP и DDP, существует огромная разница при измерении в режиме оценки (вывод). Этот разрыв увеличивается по мере увеличения размера партии. Это происходит даже в случае с одним узлом и одним графическим процессором.
¿Какова возможная причина этого?
Подробнее здесь: https://stackoverflow.com/questions/792 ... luation-mo
Мобильная версия