Задача оптимизации в Hugging Face: эффективное обслуживание нескольких LLM разного размера на одном графическом процессоPython

Программы на Python
Ответить
Anonymous
 Задача оптимизации в Hugging Face: эффективное обслуживание нескольких LLM разного размера на одном графическом процессо

Сообщение Anonymous »

В настоящее время я работаю над проектом Gen AI на основе Python, который требует эффективного развертывания и обслуживания нескольких LLM, в частности моделей с различным количеством параметров (Llama-2 7B и Mistral 7B) в одной инфраструктуре графического процессора, чтобы минимизировать задержку и максимизировать пропускную способность.
Я использую библиотеку Hugging Face Transformers, интегрированную с PyTorch, и сталкиваюсь с серьезной проблемой в достижении оптимального использования памяти графического процессора и эффективности обслуживания под одновременная нагрузка.
1. Конкретная задача: Каковы рекомендуемые стратегии или лучшие практики для реализации обслуживания с учетом ресурсов? Как можно эффективно управлять и динамически распределять память графического процессора и вычислительные ресурсы между моделями разных размеров, работающими одновременно на одном и том же оборудовании?
2 – Техническая реализация: Я ищу идеи о том, как эффективно использовать или интегрировать передовые методы, такие как пакетная обработка (между моделями), внимание к страницам (основной механизм vLLM) или тензорный параллелизм в этой конкретной настройке обслуживания с несколькими моделями и разными размерами.
3. Рекомендация по инструментам: Существуют ли конкретные библиотеки или платформы Python (vLLM, Text Generation Inference, Triton Inference Server или Ray), которые легко интегрируются с экосистемой Hugging Face/PyTorch и превосходят именно этот сценарий по сравнению со стандартным конвейером Transformers, особенно при балансировании высокой эффективности использования ресурсов с гибкостью в размере модели и обработке запросов?
Любые подробные примеры кода или ссылки на проверенные архитектуры были бы очень полезны. оценил.

Подробнее здесь: https://stackoverflow.com/questions/798 ... ifferently
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»