Сейчас я внедряю JavaScript на вкладку Meet (через бота автоматизации браузера) и очищаю подписи DOM. Это работает, но качество расшифровки очень плохое:
- Многие слова неправильны/отсутствуют
- Системные сообщения Google Meet (присоединиться/выйти/подсказки) отображаются внутри расшифровки
- Иногда отображаются только частичные подписи
- Точность очень низкая. ниже того, что сам Google Meet показывает пользователям
Что я хочу знать
Существует ли какой-либо надежный/бесплатный метод/метод с открытым исходным кодом для захвата высококачественный звук или стенограмма из Google Meet, когда бот присоединяется к звонку?
Подробная информация о моей среде
- Бот работает на виртуальной машине Ubuntu (облако Civo)
- Я могу запустить управляемый экземпляр Chrome (через Puppeteer или Selenium)
- Я согласен с записью звука системы/вкладок, если это возможно.
- Я хочу избегать платных API (например, Vexa, платных STT API)
- Цель – передать звук в локальный механизм STT (Whisper, WhisperX, и т. д.)
- Очистка подписей DOM → плохое качество, шумные системные сообщения, смешанные с речью
- Изучение Chrome getDisplayMedia → невозможно автоматически предоставить разрешения от бота; не удается из-за требования к жестам пользователя
- Исследование внутренних компонентов WebRTC → Кажется невозможным перехватить аудиодорожки других участников из JS
- Поиск Meet API → расшифровок/аудио не существует
- Есть ли технически осуществимый способ записать звук вкладки/системы Google Meet на виртуальной машине Linux с помощью бота?
- например, с помощью монитора PulseAudio, нулевых приемников, флагов Chrome или tabCapture
- Кто-нибудь успешно реализовал конвейер бот Google Meet → захват звука → локальная транскрипция (Whisper)?
- Существуют ли надежные подходы с открытым исходным кодом или это единственный стабильный метод записи системного звука на уровне ОС и полного обхода Meet?
- Известные ограничения с Chrome/Puppeteer + Meet, о которых мне следует знать?
Я не пытаюсь нарушить безопасность — я просто хочу реализовать бота, который сможет слышать звук собрания (аналогично людям), транскрибировать его локально и избегать некачественной очистки титров DOM.
Какой технический подход лучше всего подходит добиться этого?
Подробнее здесь: https://stackoverflow.com/questions/798 ... et-using-a
Мобильная версия