Моя основная цель - захватить аудио или запись данных непосредственно с этих платформ. Я попытался использовать сторонние службы речи в тексте (например, Deepgram), но они не удовлетворяли требованию для разделения динамиков. Я подозреваю, что могут быть расширения или методы браузера (возможно, перехватывают потоки WEBRTC или сами данные подписи), которые могут захватить точные транскрипты, отображаемые на интерфейсах собрания. < /P>
Я ищу руководство. ON: < /p>
[*] Методы для сбора данных в прямом эфире или аудио -потоков. < /li>
Подходы к извлечению и обработке этих данных для достижения точной транскрипции
с помощью диаризации динамика. < /li>
< /ul>
Любые указатели о том, с чего начинать, полезные библиотеки или соответствующие API -интерфейсы будут высоко оценены. Спасибо! < /P>
Примечание-не ищу стороннего API < /p>
Я попытался захватить звук от Google Meet и Zoom, используя стороннюю речь в -Text платформы, такие как deepgram , но они не соответствовали моим требованиям, особенно с точки зрения разделения динамиков . Качество транскрипции было не таким точным, как подписи, отображаемые на этих платформах. Google Meet и Zoom, с надлежащей атрибуцией динамика. Я подозреваю, что это можно сделать с помощью: < /p>
- захват аудио -потока < /strong> с встречи. < /Li>
li> перехват подписи , сгенерированные платформой (возможно, через Webrtc или Browser API).
Подробнее здесь: https://stackoverflow.com/questions/794 ... -meet-zoom
Мобильная версия