Аватар Wav2Lip + LiveKit в реальном времени: зависание видео, синие кадры и обрывы звука — как правильно синхронизироват

Аватар Wav2Lip + LiveKit в реальном времени: зависание видео, синие кадры и обрывы звука — как правильно синхронизироват ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Аватар Wav2Lip + LiveKit в реальном времени: зависание видео, синие кадры и обрывы звука — как правильно синхронизироват

Цитата

Сообщение Anonymous » 20 дек 2025, 12:54

Я создаю говорящий аватар в реальном времени, используя LiveKit Agents и Wav2Lip.

Цель — транслировать аудио и синхронизированное по губам видео в комнату LiveKit в реальном времени.

Что я пытаюсь создать
Конвейер

Код: Выделить всё

User mic
→ STT
→ LLM
→ TTS
→ mel spectrogram chunks
→ Wav2Lip (GPU)
→ video frames
→ LiveKit video track

Аудио транслируется в прямом эфире через LiveKit TTS.
Кадры видео генерируются для каждого фрагмента мела с помощью Wav2Lip.
Одно изображение аватара (
Код: Выделить всё
```
avatar.png
```
) используется в качестве ввода лица

То, что я реализовал на данный момент
1. Узел аудио (TTS)

Я немедленно передаю аудиокадры в LiveKit (низкая задержка)
Я буферизирую звук PCM для каждого ответа
После завершения TTS я:

Преобразую PCM → float
Пересемплировать до 16 кГц
Создать мел-спектрограмму
Разбить мел на фрагменты (эквивалент ≈ 24 кадра в секунду)
Поместить фрагменты мела в асинхронную очередь для узел аватара

Код: Выделить всё

async for frame in Agent.default.tts_node(self, text, model_settings):
pcm_chunks.append(frame.data)
yield frame  # audio goes live immediately

2. Узел аватара (видео)

Отдельная асинхронная задача использует фрагменты мела
Для каждого фрагмента мела:

Запустить datagen(...)
Запустить вывод Wav2Lip на графическом процессоре
Объединить область рта обратно в кадр аватара
Преобразовать кадр в RGBA
Переместить кадр в LiveKit с помощью VideoSource.capture_frame

Упрощенный цикл:

Код: Выделить всё

mel_chunk = await avatar_queue.get()

gen = datagen([avatar_frame], [mel_chunk])
img_batch, mel_batch, frames, coords = next(gen)

pred = model(mel_batch, img_batch)
composite frame
video_source.capture_frame(...)

Я ограничиваю размер очереди, чтобы избежать переполнения памяти:

Код: Выделить всё

if avatar_queue.qsize() < 5:
await avatar_queue.put(mel_chunk)

Проблемы, с которыми я столкнулся
1. Видео Аватара зависает или «застревает»

Видео обновляется на несколько кадров
Затем перестает обновляться, хотя звук продолжается
Иногда возобновляется позже

2. Аватар становится синим

Случайные кадры отображаются синими или смещаются цвета
Я подозреваю, что возникают проблемы с преобразованием BGR ↔ RGB ↔ RGBA
Или неинициализированное использование кадров во время тайм-аутов

3. Звук прерывается/заикается
В журналах показано:

Код: Выделить всё

silero inference is slower than realtime
process memory usage is high

Симптомы:

Звук прерывается или прерывается на полуслове
Видео и звук расходятся

Что я уже пробовал

Снижение FPS от 25 → 24
Ограниченный размер очереди мела
Отключена запись видеофайлов (чистая потоковая передача)
Перемещен Wav2Lip на графический процессор
Отключено интенсивное ведение журнала

По-прежнему наблюдаются зависания и дрейф.
Кто-нибудь может мне помочь, как решить эту проблему?
Я хочу:

Плавную синхронизацию губ в реальном времени
Без зависаний кадров
Стабильное воспроизведение звука
Приемлемая задержка (качество может быть немного уменьшено)

Пожалуйста, кто-нибудь может подсказать мне правильную архитектуру или модель синхронизации.

Спасибо!!!

Подробнее здесь: https://stackoverflow.com/questions/798 ... dio-breaks

1766224448

Anonymous

Я создаю [b]говорящий аватар в реальном времени[/b], используя [b]LiveKit Agents[/b] и [b]Wav2Lip[/b].

Цель — транслировать [b]аудио и синхронизированное по губам видео[/b] в комнату LiveKit в реальном времени.

Что я пытаюсь создать
[b]Конвейер[/b]
[code]User mic
→ STT
→ LLM
→ TTS
→ mel spectrogram chunks
→ Wav2Lip (GPU)
→ video frames
→ LiveKit video track
[/code]
[list]
[*]Аудио транслируется в прямом эфире через LiveKit TTS.

[*]Кадры видео генерируются для каждого фрагмента мела с помощью Wav2Lip.

[*]Одно изображение аватара ([code]avatar.png[/code]) используется в качестве ввода лица

[/list]

То, что я реализовал на данный момент
1. Узел аудио (TTS)
[list]
[*]Я [b]немедленно передаю аудиокадры[/b] в LiveKit (низкая задержка)

[*]Я [b]буферизирую звук PCM для каждого ответа[/b]

[*]После завершения TTS я:

Преобразую PCM → float

[*]Пересемплировать до 16 кГц

[*]Создать мел-спектрограмму

[*]Разбить мел на фрагменты (эквивалент ≈ 24 кадра в секунду)

[*] Поместить фрагменты мела в асинхронную очередь для узел аватара

[/list]


[code]async for frame in Agent.default.tts_node(self, text, model_settings):
pcm_chunks.append(frame.data)
yield frame  # audio goes live immediately
[/code]

2. Узел аватара (видео)
[list]
[*]Отдельная асинхронная задача использует фрагменты мела

[*]Для каждого фрагмента мела:

Запустить datagen(...)

[*]Запустить вывод Wav2Lip на графическом процессоре

[*]Объединить область рта обратно в кадр аватара

[*]Преобразовать кадр в RGBA

[*]Переместить кадр в LiveKit с помощью VideoSource.capture_frame

[/list]


Упрощенный цикл:
[code]mel_chunk = await avatar_queue.get()

gen = datagen([avatar_frame], [mel_chunk])
img_batch, mel_batch, frames, coords = next(gen)

pred = model(mel_batch, img_batch)
composite frame
video_source.capture_frame(...)
[/code]
Я ограничиваю размер очереди, чтобы избежать переполнения памяти:
[code]if avatar_queue.qsize() < 5:
await avatar_queue.put(mel_chunk)
[/code]

Проблемы, с которыми я столкнулся
1. Видео Аватара зависает или «застревает»
[list]
[*]Видео обновляется на несколько кадров

[*]Затем перестает обновляться, хотя звук продолжается

[*]Иногда возобновляется позже

[/list]

2. Аватар становится синим
[list]
[*]Случайные кадры отображаются синими или смещаются цвета

[*]Я подозреваю, что возникают проблемы с преобразованием BGR ↔ RGB ↔ RGBA

[*]Или неинициализированное использование кадров во время тайм-аутов

[/list]

3. Звук прерывается/заикается
В журналах показано:
[code]silero inference is slower than realtime
process memory usage is high
[/code]
Симптомы:
[list]
[*]Звук прерывается или прерывается на полуслове

[*]Видео и звук расходятся

[/list]

Что я уже пробовал
[list]
[*]Снижение FPS от 25 → 24

[*]Ограниченный размер очереди мела

[*]Отключена запись видеофайлов (чистая потоковая передача)

[*]Перемещен Wav2Lip на графический процессор

[*]Отключено интенсивное ведение журнала

[/list]
По-прежнему наблюдаются зависания и дрейф.
Кто-нибудь может мне помочь, как решить эту проблему?
Я хочу:
[list]
[*]Плавную синхронизацию губ в реальном времени

[*]Без зависаний кадров

[*]Стабильное воспроизведение звука

[*]Приемлемая задержка (качество может быть немного уменьшено)

[/list]
Пожалуйста, кто-нибудь может подсказать мне [b]правильную архитектуру или модель синхронизации[/b].

Спасибо!!! 

Подробнее здесь: [url]https://stackoverflow.com/questions/79851650/real-time-wav2lip-livekit-avatar-video-freezes-blue-frames-and-audio-breaks[/url]