В настоящее время я работаю над проектом Gen AI на основе Python, который требует эффективного развертывания и обслуживания нескольких LLM, в частности моделей с различным количеством параметров (Llama-2 7B и Mistral 7B) в одной инфраструктуре графического процессора, чтобы минимизировать задержку и максимизировать пропускную способность.
Я использую библиотеку Hugging Face Transformers, интегрированную с PyTorch, и сталкиваюсь с серьезной проблемой в достижении оптимального использования памяти графического процессора и эффективности обслуживания под одновременная нагрузка.
1. Конкретная задача: Каковы рекомендуемые стратегии или лучшие практики для реализации обслуживания с учетом ресурсов? Как можно эффективно управлять и динамически распределять память графического процессора и вычислительные ресурсы между моделями разных размеров, работающими одновременно на одном и том же оборудовании?
2 – Техническая реализация: Я ищу идеи о том, как эффективно использовать или интегрировать передовые методы, такие как пакетная обработка (между моделями), внимание к страницам (основной механизм vLLM) или тензорный параллелизм в этой конкретной настройке обслуживания с несколькими моделями и разными размерами.
3. Рекомендация по инструментам: Существуют ли конкретные библиотеки или платформы Python (vLLM, Text Generation Inference, Triton Inference Server или Ray), которые легко интегрируются с экосистемой Hugging Face/PyTorch и превосходят именно этот сценарий по сравнению со стандартным конвейером Transformers, особенно при балансировании высокой эффективности использования ресурсов с гибкостью в размере модели и обработке запросов?
Любые подробные примеры кода или ссылки на проверенные архитектуры были бы очень полезны. оценил.
Подробнее здесь: https://stackoverflow.com/questions/798 ... ifferently
Задача оптимизации в Hugging Face: эффективное обслуживание нескольких LLM разного размера на одном графическом процессо ⇐ Python
Программы на Python
1764285083
Anonymous
В настоящее время я работаю над проектом Gen AI на основе Python, который требует эффективного развертывания и обслуживания нескольких LLM, в частности моделей с различным количеством параметров (Llama-2 7B и Mistral 7B) в одной инфраструктуре графического процессора, чтобы минимизировать задержку и максимизировать пропускную способность.
Я использую библиотеку Hugging Face Transformers, интегрированную с PyTorch, и сталкиваюсь с серьезной проблемой в достижении оптимального использования памяти графического процессора и эффективности обслуживания под одновременная нагрузка.
[b]1. Конкретная задача:[/b] Каковы рекомендуемые стратегии или лучшие практики для реализации обслуживания с учетом ресурсов? Как можно эффективно управлять и динамически распределять память графического процессора и вычислительные ресурсы между моделями разных размеров, работающими одновременно на одном и том же оборудовании?
[b]2 – Техническая реализация:[/b] Я ищу идеи о том, как эффективно использовать или интегрировать передовые методы, такие как пакетная обработка (между моделями), внимание к страницам (основной механизм vLLM) или тензорный параллелизм в этой конкретной настройке обслуживания с несколькими моделями и разными размерами.
[b]3. Рекомендация по инструментам:[/b] Существуют ли конкретные библиотеки или платформы Python (vLLM, Text Generation Inference, Triton Inference Server или Ray), которые легко интегрируются с экосистемой Hugging Face/PyTorch и превосходят именно этот сценарий по сравнению со стандартным конвейером Transformers, особенно при балансировании высокой эффективности использования ресурсов с гибкостью в размере модели и обработке запросов?
Любые подробные примеры кода или ссылки на проверенные архитектуры были бы очень полезны. оценил.
Подробнее здесь: [url]https://stackoverflow.com/questions/79832134/optimization-challenge-in-hugging-face-effcienntly-serving-muliple-differently[/url]
Ответить
1 сообщение
• Страница 1 из 1
Перейти
- Кемерово-IT
- ↳ Javascript
- ↳ C#
- ↳ JAVA
- ↳ Elasticsearch aggregation
- ↳ Python
- ↳ Php
- ↳ Android
- ↳ Html
- ↳ Jquery
- ↳ C++
- ↳ IOS
- ↳ CSS
- ↳ Excel
- ↳ Linux
- ↳ Apache
- ↳ MySql
- Детский мир
- Для души
- ↳ Музыкальные инструменты даром
- ↳ Печатная продукция даром
- Внешняя красота и здоровье
- ↳ Одежда и обувь для взрослых даром
- ↳ Товары для здоровья
- ↳ Физкультура и спорт
- Техника - даром!
- ↳ Автомобилистам
- ↳ Компьютерная техника
- ↳ Плиты: газовые и электрические
- ↳ Холодильники
- ↳ Стиральные машины
- ↳ Телевизоры
- ↳ Телефоны, смартфоны, плашеты
- ↳ Швейные машинки
- ↳ Прочая электроника и техника
- ↳ Фототехника
- Ремонт и интерьер
- ↳ Стройматериалы, инструмент
- ↳ Мебель и предметы интерьера даром
- ↳ Cантехника
- Другие темы
- ↳ Разное даром
- ↳ Давай меняться!
- ↳ Отдам\возьму за копеечку
- ↳ Работа и подработка в Кемерове
- ↳ Давай с тобой поговорим...
Мобильная версия