Преобразование речи в текст Google дублирует сообщения ⇐ Python
Преобразование речи в текст Google дублирует сообщения
Я отправляю mp3-файл в Google. Файл представляет собой стереозапись телефонного разговора с одним абонентом на каждом канале. Проблема в том, что все сказанное дублируется и присваивается обоим каналам.
def transcribe_file_with_multichannel(speech_file: str, client_file) -> речь.RecowleResponse: """Расшифровать данный аудиофайл синхронно с многоканальный. Аргументы: речевой_файл: путь к распознаваемому аудиофайлу. Возврат: Результаты RecounceResponse. """ учетные данные = service_account.Credentials.from_service_account_file(client_file) клиент = речь.SpeechClient(учетные данные=учетные данные) с open(speech_file, "rb") как audio_file: содержимое = audio_file.read() аудио = речь.RecognitionAudio(content=content) конфигурация = речь.RecognitionConfig( кодирование = речь.RecognitionConfig.AudioEncoding.MP3, sample_rate_hertz=44100, Language_code="en-US", audio_channel_count=2, Enable_separate_recognition_per_channel = Верно, ) операция = client.long_running_recouncee(config=config, audio=audio) print("Ожидание завершения операции...") ответ = операция.результат(таймаут=90) печать(ответ.результаты) для i результат enumerate(response.results): альтернатива = result.alternatives[0] печать("-" * 20) print(f"Первая альтернатива результата {i}") print(f"Расшифровка: {alternative.transcript}") print(f"Тег канала: {result.channel_tag}") вернуть результат Пример ответа:
альтернативы { стенограмма: «Если вы запросили этот звонок, скажите «да»» достоверность: 0,987629 } тег_канала: 1 result_end_time { секунд: 12 нанос: 470000000 } Language_code: "en-us" , альтернативы { стенограмма: «Если вы запросили этот звонок, пожалуйста, скажите да, да» уверенность: 0,984083593 } тег_канала: 2 result_end_time { секунд: 13 нанос: 890000000 Я не знаю, что попробовать на этом этапе.
Я отправляю mp3-файл в Google. Файл представляет собой стереозапись телефонного разговора с одним абонентом на каждом канале. Проблема в том, что все сказанное дублируется и присваивается обоим каналам.
def transcribe_file_with_multichannel(speech_file: str, client_file) -> речь.RecowleResponse: """Расшифровать данный аудиофайл синхронно с многоканальный. Аргументы: речевой_файл: путь к распознаваемому аудиофайлу. Возврат: Результаты RecounceResponse. """ учетные данные = service_account.Credentials.from_service_account_file(client_file) клиент = речь.SpeechClient(учетные данные=учетные данные) с open(speech_file, "rb") как audio_file: содержимое = audio_file.read() аудио = речь.RecognitionAudio(content=content) конфигурация = речь.RecognitionConfig( кодирование = речь.RecognitionConfig.AudioEncoding.MP3, sample_rate_hertz=44100, Language_code="en-US", audio_channel_count=2, Enable_separate_recognition_per_channel = Верно, ) операция = client.long_running_recouncee(config=config, audio=audio) print("Ожидание завершения операции...") ответ = операция.результат(таймаут=90) печать(ответ.результаты) для i результат enumerate(response.results): альтернатива = result.alternatives[0] печать("-" * 20) print(f"Первая альтернатива результата {i}") print(f"Расшифровка: {alternative.transcript}") print(f"Тег канала: {result.channel_tag}") вернуть результат Пример ответа:
альтернативы { стенограмма: «Если вы запросили этот звонок, скажите «да»» достоверность: 0,987629 } тег_канала: 1 result_end_time { секунд: 12 нанос: 470000000 } Language_code: "en-us" , альтернативы { стенограмма: «Если вы запросили этот звонок, пожалуйста, скажите да, да» уверенность: 0,984083593 } тег_канала: 2 result_end_time { секунд: 13 нанос: 890000000 Я не знаю, что попробовать на этом этапе.
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Преобразование речи в текст и чистая архитектура в разработке под Android
Anonymous » » в форуме Android - 0 Ответы
- 26 Просмотры
-
Последнее сообщение Anonymous
-