Задача оптимизации в Hugging Face: эффективное обслуживание нескольких LLM разного размера на одном графическом процессо

Задача оптимизации в Hugging Face: эффективное обслуживание нескольких LLM разного размера на одном графическом процессо ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Задача оптимизации в Hugging Face: эффективное обслуживание нескольких LLM разного размера на одном графическом процессо

Цитата

Сообщение Anonymous » 28 ноя 2025, 02:11

В настоящее время я работаю над проектом Gen AI на основе Python, который требует эффективного развертывания и обслуживания нескольких LLM, в частности моделей с различным количеством параметров (Llama-2 7B и Mistral 7B) в одной инфраструктуре графического процессора, чтобы минимизировать задержку и максимизировать пропускную способность.
Я использую библиотеку Hugging Face Transformers, интегрированную с PyTorch, и сталкиваюсь с серьезной проблемой в достижении оптимального использования памяти графического процессора и эффективности обслуживания под одновременная нагрузка.
1. Конкретная задача: Каковы рекомендуемые стратегии или лучшие практики для реализации обслуживания с учетом ресурсов? Как можно эффективно управлять и динамически распределять память графического процессора и вычислительные ресурсы между моделями разных размеров, работающими одновременно на одном и том же оборудовании?
2 – Техническая реализация: Я ищу идеи о том, как эффективно использовать или интегрировать передовые методы, такие как пакетная обработка (между моделями), внимание к страницам (основной механизм vLLM) или тензорный параллелизм в этой конкретной настройке обслуживания с несколькими моделями и разными размерами.
3. Рекомендация по инструментам: Существуют ли конкретные библиотеки или платформы Python (vLLM, Text Generation Inference, Triton Inference Server или Ray), которые легко интегрируются с экосистемой Hugging Face/PyTorch и превосходят именно этот сценарий по сравнению со стандартным конвейером Transformers, особенно при балансировании высокой эффективности использования ресурсов с гибкостью в размере модели и обработке запросов?
Любые подробные примеры кода или ссылки на проверенные архитектуры были бы очень полезны. оценил.

Подробнее здесь: https://stackoverflow.com/questions/798 ... ifferently

1764285083

Anonymous

В настоящее время я работаю над проектом Gen AI на основе Python, который требует эффективного развертывания и обслуживания нескольких LLM, в частности моделей с различным количеством параметров (Llama-2 7B и Mistral 7B) в одной инфраструктуре графического процессора, чтобы минимизировать задержку и максимизировать пропускную способность.
Я использую библиотеку Hugging Face Transformers, интегрированную с PyTorch, и сталкиваюсь с серьезной проблемой в достижении оптимального использования памяти графического процессора и эффективности обслуживания под одновременная нагрузка.
[b]1. Конкретная задача:[/b] Каковы рекомендуемые стратегии или лучшие практики для реализации обслуживания с учетом ресурсов? Как можно эффективно управлять и динамически распределять память графического процессора и вычислительные ресурсы между моделями разных размеров, работающими одновременно на одном и том же оборудовании?
[b]2 – Техническая реализация:[/b] Я ищу идеи о том, как эффективно использовать или интегрировать передовые методы, такие как пакетная обработка (между моделями), внимание к страницам (основной механизм vLLM) или тензорный параллелизм в этой конкретной настройке обслуживания с несколькими моделями и разными размерами.
[b]3. Рекомендация по инструментам:[/b] Существуют ли конкретные библиотеки или платформы Python (vLLM, Text Generation Inference, Triton Inference Server или Ray), которые легко интегрируются с экосистемой Hugging Face/PyTorch и превосходят именно этот сценарий по сравнению со стандартным конвейером Transformers, особенно при балансировании высокой эффективности использования ресурсов с гибкостью в размере модели и обработке запросов?
Любые подробные примеры кода или ссылки на проверенные архитектуры были бы очень полезны. оценил. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79832134/optimization-challenge-in-hugging-face-effcienntly-serving-muliple-differently[/url]

Ответить

1 сообщение • Страница 1 из 1