Как надежно записывать высококачественные аудио/расшифровки из Google Meet с помощью бота (без официального API)?Javascript

Форум по Javascript
Ответить
Anonymous
 Как надежно записывать высококачественные аудио/расшифровки из Google Meet с помощью бота (без официального API)?

Сообщение Anonymous »

Я создаю систему, в которой бот присоединяется к звонку Google Meet и извлекает транскрипцию в реальном времени.

Сейчас я внедряю JavaScript на вкладку Meet (через бота автоматизации браузера) и очищаю подписи DOM. Это работает, но качество расшифровки очень плохое:
  • Многие слова неправильны/отсутствуют
  • Системные сообщения Google Meet (присоединиться/выйти/подсказки) отображаются внутри расшифровки
  • Иногда отображаются только частичные подписи
  • Точность очень низкая. ниже того, что сам Google Meet показывает пользователям
Google Meet не предоставляет никаких официальных API для субтитров, меток докладчиков или звука собраний, а ограничения WebRTC не позволяют напрямую записывать звук табуляции через JavaScript для бота, не являющегося человеком.
Что я хочу знать
Существует ли какой-либо надежный/бесплатный метод/метод с открытым исходным кодом для захвата высококачественный звук или стенограмма из Google Meet, когда бот присоединяется к звонку?
Подробная информация о моей среде
  • Бот работает на виртуальной машине Ubuntu (облако Civo)
  • Я могу запустить управляемый экземпляр Chrome (через Puppeteer или Selenium)
  • Я согласен с записью звука системы/вкладок, если это возможно.
  • Я хочу избегать платных API (например, Vexa, платных STT API)
  • Цель – передать звук в локальный механизм STT (Whisper, WhisperX, и т. д.)
То, что я уже пробовал
  • Очистка подписей DOM → плохое качество, шумные системные сообщения, смешанные с речью
  • Изучение Chrome getDisplayMedia → невозможно автоматически предоставить разрешения от бота; не удается из-за требования к жестам пользователя
  • Исследование внутренних компонентов WebRTC → Кажется невозможным перехватить аудиодорожки других участников из JS
  • Поиск Meet API → расшифровок/аудио не существует
Мой вопросы
  • Есть ли технически осуществимый способ записать звук вкладки/системы Google Meet на виртуальной машине Linux с помощью бота?
    • например, с помощью монитора PulseAudio, нулевых приемников, флагов Chrome или tabCapture
  • Кто-нибудь успешно реализовал конвейер бот Google Meet → захват звука → локальная транскрипция (Whisper)?
  • Существуют ли надежные подходы с открытым исходным кодом или это единственный стабильный метод записи системного звука на уровне ОС и полного обхода Meet?
  • Известные ограничения с Chrome/Puppeteer + Meet, о которых мне следует знать?
Моя цель
Я не пытаюсь нарушить безопасность — я просто хочу реализовать бота, который сможет слышать звук собрания (аналогично людям), транскрибировать его локально и избегать некачественной очистки титров DOM.
Какой технический подход лучше всего подходит добиться этого?

Подробнее здесь: https://stackoverflow.com/questions/798 ... et-using-a
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Javascript»