Сократите время отклика для контроля качества документов с помощью Llama-2 7b (8-бит)Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Сократите время отклика для контроля качества документов с помощью Llama-2 7b (8-бит)

Сообщение Anonymous »

Я создал систему контроля качества документов, используя модель Llama-2 7b с 8-битным квантованием. В настоящее время ответ на запрос занимает около 20 секунд. Однако я бы хотел сократить это время до 5 секунд.
Характеристики системы:
  • Процессор: Intel Xeon Gold 6238R @ 2,20 ГГц (2 ядра, 2 логических процессора)
  • ОЗУ: 24 ГБ
  • Графический процессор: NVIDIA A40- 12Q (12 ГБ видеопамяти)
Может ли кто-нибудь предложить способы оптимизации системы для более быстрого отклика?
Я' Я испытываю кратковременные всплески (5-8 секунд) загрузки ЦП, достигающей 100%. Чтобы повысить производительность, я хотел бы разгрузить эту рабочую нагрузку на графический процессор и свести к минимуму загрузку процессора.

Подробнее здесь: https://stackoverflow.com/questions/783 ... 2-7b-8-bit
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»