Как надежно записывать высококачественные аудио/расшифровки из Google Meet с помощью бота (без официального API)? - Цифровое Кемерово

Как надежно записывать высококачественные аудио/расшифровки из Google Meet с помощью бота (без официального API)? ⇐ Javascript

1 сообщение • Страница 1 из 1

Anonymous

Как надежно записывать высококачественные аудио/расшифровки из Google Meet с помощью бота (без официального API)?

Сообщение Anonymous » 28 ноя 2025, 08:32

Я создаю систему, в которой бот присоединяется к звонку Google Meet и извлекает транскрипцию в реальном времени.

Сейчас я внедряю JavaScript на вкладку Meet (через бота автоматизации браузера) и очищаю подписи DOM. Это работает, но качество расшифровки очень плохое:

Многие слова неправильны/отсутствуют
Системные сообщения Google Meet (присоединиться/выйти/подсказки) отображаются внутри расшифровки
Иногда отображаются только частичные подписи
Точность очень низкая. ниже того, что сам Google Meet показывает пользователям

Google Meet не предоставляет никаких официальных API для субтитров, меток докладчиков или звука собраний, а ограничения WebRTC не позволяют напрямую записывать звук табуляции через JavaScript для бота, не являющегося человеком.
Что я хочу знать
Существует ли какой-либо надежный/бесплатный метод/метод с открытым исходным кодом для захвата высококачественный звук или стенограмма из Google Meet, когда бот присоединяется к звонку?
Подробная информация о моей среде

Бот работает на виртуальной машине Ubuntu (облако Civo)
Я могу запустить управляемый экземпляр Chrome (через Puppeteer или Selenium)
Я согласен с записью звука системы/вкладок, если это возможно.
Я хочу избегать платных API (например, Vexa, платных STT API)
Цель – передать звук в локальный механизм STT (Whisper, WhisperX, и т. д.)

То, что я уже пробовал

Очистка подписей DOM → плохое качество, шумные системные сообщения, смешанные с речью
Изучение Chrome getDisplayMedia → невозможно автоматически предоставить разрешения от бота; не удается из-за требования к жестам пользователя
Исследование внутренних компонентов WebRTC → Кажется невозможным перехватить аудиодорожки других участников из JS
Поиск Meet API → расшифровок/аудио не существует

Мой вопросы

Есть ли технически осуществимый способ записать звук вкладки/системы Google Meet на виртуальной машине Linux с помощью бота?
- например, с помощью монитора PulseAudio, нулевых приемников, флагов Chrome или tabCapture
Кто-нибудь успешно реализовал конвейер бот Google Meet → захват звука → локальная транскрипция (Whisper)?
Существуют ли надежные подходы с открытым исходным кодом или это единственный стабильный метод записи системного звука на уровне ОС и полного обхода Meet?
Известные ограничения с Chrome/Puppeteer + Meet, о которых мне следует знать?

Моя цель
Я не пытаюсь нарушить безопасность — я просто хочу реализовать бота, который сможет слышать звук собрания (аналогично людям), транскрибировать его локально и избегать некачественной очистки титров DOM.
Какой технический подход лучше всего подходит добиться этого?

Подробнее здесь: https://stackoverflow.com/questions/798 ... et-using-a

Anonymous

1 сообщение • Страница 1 из 1

Вернуться в «Javascript»