Увеличено время отклика модели машинного обучения при ее развертывании на одном сервере вместо двух.

Увеличено время отклика модели машинного обучения при ее развертывании на одном сервере вместо двух. ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Увеличено время отклика модели машинного обучения при ее развертывании на одном сервере вместо двух.

Цитата

Сообщение Anonymous » 12 дек 2024, 21:13

Недавно я развернул модель машинного обучения с использованием графического процессора на двух параллельных серверах. Нагрузка запросов распределялась между ними с помощью балансировщика нагрузки. Чтобы сократить использование ресурсов, я решил перейти на настройку с одним сервером, направив все запросы непосредственно на один из серверов. Сервер оснащен графическим процессором Nvidia tesla t4. Модель использует около 1,2 ГБ из 15 ГБ.
После изменений я заметил следующее:
Загрузка ЦП: осталась почти без изменений. .
Загрузка графического процессора: увеличилась вдвое, как и ожидалось, но не превысила мощность графического процессора.
Средний процент использования графического процессора увеличился с 7,5 % до 16,5 %
Максимальный процент использования графического процессора увеличился с 38 % до 48 %
90-й процентиль процентного использования графического процессора увеличился с 19 % до 34 % p>
Время отклика модели: увеличено в среднем примерно на 10–15 %.
Несмотря на эти наблюдения, я не могу точно определить причину увеличенное время отклика от модели. Есть идеи или предложения?

Подробнее здесь: https://stackoverflow.com/questions/792 ... on-a-singl

1734027209

Anonymous

Подробнее здесь: [url]https://stackoverflow.com/questions/79275068/increased-response-time-of-a-machine-learning-model-when-deploying-it-on-a-singl[/url]