Как создать транскрипцию звука в реальном времени с помощью PyAudio, Silero VAD и WhisperX? - Цифровое Кемерово

Как создать транскрипцию звука в реальном времени с помощью PyAudio, Silero VAD и WhisperX? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как создать транскрипцию звука в реальном времени с помощью PyAudio, Silero VAD и WhisperX?

Цитата

Сообщение Anonymous » 28 дек 2024, 19:30

Я пытался заставить работать транскрипцию аудио в реальном времени, но не уверен, что делаю.
Чего я пытаюсь достичь:

Непрерывно записывать звук с помощью PyAudio и проверять, есть ли в аудиофрагментах речь, с помощью Silero VAD.
Аудиофрагменты, содержащие речь, будут добавляться в список до тех пор, пока VAD не обнаружит звук. кусок без речь.
Список аудиофрагментов с речью будет объединен в виде массива numpy и отправлен в WhisperX для транскрипции.
Повторяйте процесс, пока клавиатура не будет прервана.< /li>

Это моя попытка кодирования:

Код: Выделить всё

device = "cuda" if torch.cuda.is_available() else "cpu"
model = load_silero_vad()
vad_iterator = VADIterator(model)

whisper_model = whisperx.load_model("base", device=device, compute_type="float32", language='en')

# initialize pyaudio
p = pyaudio.PyAudio()

# Define audio stream parameters
FORMAT = pyaudio.paInt16  # 16-bit format
CHANNELS = 1              # Mono audio
RATE = 16000              # Sampling rate (Hz)
CHUNK = 512              # Buffer size

# Open audio stream
stream = p.open(format=FORMAT,
channels=CHANNELS,
rate=RATE,
input=True,
frames_per_buffer=CHUNK)

speech_buffer = []

SILENCE_THRESHOLD = 80  # Number of consecutive non-speech frames to tolerate
silence_count = 0  # Counter for consecutive non-speech frames

try:
while True:
# Read audio data from the stream
audio_data = stream.read(CHUNK)
# Convert audio data to numpy array and normalize to float32
audio_np = np.frombuffer(audio_data, dtype=np.int16).astype(np.float32) / 32768.0

# Apply VAD to detect speech
speech_dict = vad_iterator(audio_np, RATE)

if speech_dict:
silence_count = 0
# Speech detected
print("Speech detected!")
speech_buffer.append(audio_np)
else: # no speech
silence_count += 1
print("Speech not detected.")
print(silence_count)
print("length of speech buffer: ", len(speech_buffer))

# Process audio if silence count exceeds threshold and there's buffered audio
if silence_count > SILENCE_THRESHOLD and speech_buffer:
print("Processing audio.")
speech_audio = np.concatenate(speech_buffer)

print(speech_audio)

# # whiserpx
result = whisper_model.transcribe(speech_audio)
print("Transcription: ", result)

# reset buffer
speech_buffer = []

except KeyboardInterrupt:
print("Terminating...")

finally:
# Close the stream gracefully
stream.stop_stream()
stream.close()
p.terminate()

Когда я запускаю это, я получаю следующие ошибки:

Код: Выделить всё

ReproducibilityWarning: TensorFloat-32 (TF32) has been disabled as it might lead to reproducibility issues and lower accuracy.
It can be re-enabled by calling
>>> import torch
>>> torch.backends.cuda.matmul.allow_tf32 = True
>>> torch.backends.cudnn.allow_tf32 = True
See https://github.com/pyannote/pyannote-audio/issues/1370 for more details.

warnings.warn(
Could not locate cudnn_ops_infer64_8.dll. Please make sure it is in your library path!

Эта ошибка возникает только тогда, когда я пытаюсь передать массив numpy в Chooserx. Если я передаю wav-файл, транскрипция работает.
Я хотел бы знать, правильна ли моя логика или я что-то упускаю.
И как это исправить? мой код, чтобы транскрипция работала?
Спасибо.

Подробнее здесь: https://stackoverflow.com/questions/793 ... -vad-and-w

Реклама

1735403413

Anonymous

Я пытался заставить работать транскрипцию аудио в реальном времени, но не уверен, что делаю.
Чего я пытаюсь достичь:
[list]
[*]Непрерывно записывать звук с помощью PyAudio и проверять, есть ли в аудиофрагментах речь, с помощью Silero VAD.
[*]Аудиофрагменты, содержащие речь, будут добавляться в список до тех пор, пока VAD не обнаружит звук. кусок без речь.
[*]Список аудиофрагментов с речью будет объединен в виде массива numpy и отправлен в WhisperX для транскрипции.
Повторяйте процесс, пока клавиатура не будет прервана.< /li>
[/list]
Это моя попытка кодирования:
[code]device = "cuda" if torch.cuda.is_available() else "cpu"
model = load_silero_vad()
vad_iterator = VADIterator(model)

whisper_model = whisperx.load_model("base", device=device, compute_type="float32", language='en')

# initialize pyaudio
p = pyaudio.PyAudio()

# Define audio stream parameters
FORMAT = pyaudio.paInt16  # 16-bit format
CHANNELS = 1              # Mono audio
RATE = 16000              # Sampling rate (Hz)
CHUNK = 512              # Buffer size

# Open audio stream
stream = p.open(format=FORMAT,
channels=CHANNELS,
rate=RATE,
input=True,
frames_per_buffer=CHUNK)

speech_buffer = []

SILENCE_THRESHOLD = 80  # Number of consecutive non-speech frames to tolerate
silence_count = 0  # Counter for consecutive non-speech frames

try:
while True:
# Read audio data from the stream
audio_data = stream.read(CHUNK)
# Convert audio data to numpy array and normalize to float32
audio_np = np.frombuffer(audio_data, dtype=np.int16).astype(np.float32) / 32768.0

# Apply VAD to detect speech
speech_dict = vad_iterator(audio_np, RATE)

if speech_dict:
silence_count = 0
# Speech detected
print("Speech detected!")
speech_buffer.append(audio_np)
else: # no speech
silence_count += 1
print("Speech not detected.")
print(silence_count)
print("length of speech buffer: ", len(speech_buffer))

# Process audio if silence count exceeds threshold and there's buffered audio
if silence_count > SILENCE_THRESHOLD and speech_buffer:
print("Processing audio.")
speech_audio = np.concatenate(speech_buffer)

print(speech_audio)

# # whiserpx
result = whisper_model.transcribe(speech_audio)
print("Transcription: ", result)

# reset buffer
speech_buffer = []

except KeyboardInterrupt:
print("Terminating...")

finally:
# Close the stream gracefully
stream.stop_stream()
stream.close()
p.terminate()
[/code]
Когда я запускаю это, я получаю следующие ошибки:
[code]ReproducibilityWarning: TensorFloat-32 (TF32) has been disabled as it might lead to reproducibility issues and lower accuracy.
It can be re-enabled by calling
>>> import torch
>>> torch.backends.cuda.matmul.allow_tf32 = True
>>> torch.backends.cudnn.allow_tf32 = True
See https://github.com/pyannote/pyannote-audio/issues/1370 for more details.

warnings.warn(
Could not locate cudnn_ops_infer64_8.dll. Please make sure it is in your library path!
[/code]
Эта ошибка возникает только тогда, когда я пытаюсь передать массив numpy в Chooserx. Если я передаю wav-файл, транскрипция работает.
Я хотел бы знать, правильна ли моя логика или я что-то упускаю.
И как это исправить? мой код, чтобы транскрипция работала?
Спасибо. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79314153/how-do-you-create-real-time-audio-transcription-using-pyaudio-silero-vad-and-w[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Pakage не хватает при использовании Silero-Vad

Последнее сообщение Anonymous « 28 апр 2025, 13:26
Добавлено в форуме Python

Anonymous » 28 апр 2025, 13:26 » в форуме Python

Когда я использую Silero-Vad, чтобы уменьшить шум для моей модели быстрого, он сообщает об ошибке как удар:
---------------------------------------------------------------------------
ImportError Traceback (most recent call last)
File...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
28 апр 2025, 13:26
Пакет Onnxruntime отсутствует при использовании Silero-Vad

Последнее сообщение Anonymous « 16 июн 2025, 22:41
Добавлено в форуме Python

Anonymous » 16 июн 2025, 22:41 » в форуме Python

Когда я использую Silero-Vad, чтобы уменьшить шум для моей модели с более быстрым, он сообщает о ошибке ниже:
---------------------------------------------------------------------------
ImportError Traceback (most recent call last)
File...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
16 июн 2025, 22:41
Пакет Onnxruntime отсутствует при использовании Silero-Vad

Последнее сообщение Anonymous « 25 июл 2025, 17:19
Добавлено в форуме Python

Anonymous » 25 июл 2025, 17:19 » в форуме Python

Когда я использую Silero-Vad, чтобы уменьшить шум для моей модели с более быстрым, он сообщает о ошибке ниже:
---------------------------------------------------------------------------
ImportError Traceback (most recent call last)
File...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
25 июл 2025, 17:19
Я использую PyvidPlayer2, и это дает мне ошибку, когда я не имею Pyaudio, но я уже скачал Pyaudio

Последнее сообщение Anonymous « 21 июл 2025, 14:15
Добавлено в форуме Python

Anonymous » 21 июл 2025, 14:15 » в форуме Python

Я пытаюсь выучить Pygame для игры, которую я делаю для школьного проекта, и одна из вещей, которые я пытаюсь выучить, - это как играть в видео в Pygame. Поэтому я попытался использовать библиотеку PyvidPlayer2, и это дало мне ошибку и сказал, что...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
21 июл 2025, 14:15
Доступны ли API Google API для транскриптов и записей, и может ли кукловоды автоматизировать транскрипцию собрания?

Последнее сообщение Anonymous « 28 янв 2025, 16:10
Добавлено в форуме Python

Anonymous » 28 янв 2025, 16:10 » в форуме Python

Я изучаю способы автоматизации процесса захвата транскриптов собраний и записей от Google Meet. У меня есть несколько конкретных вопросов:
1. Google Meet API для транскриптов и записей:

Есть ли официальные API Google, которые позволяют выбирать...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
28 янв 2025, 16:10

Вернуться в «Python»

Programmiererforum