Может ли кто-нибудь сказать, что не так с этим скриптом, который должен обрабатывать входной сигнал моего микрофона? - Цифровое Кемерово

Может ли кто-нибудь сказать, что не так с этим скриптом, который должен обрабатывать входной сигнал моего микрофона? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Может ли кто-нибудь сказать, что не так с этим скриптом, который должен обрабатывать входной сигнал моего микрофона?

Цитата

Сообщение Anonymous » 28 июн 2024, 20:00

Я пытаюсь создать приложение, которое записывает звук моего микрофона в один поток и создает 5-секундные фрагменты. Затем он помещает каждый из этих фрагментов в очередь, которая отправляет его во второй поток для расшифровки аудио в текст, а затем добавляет текст во вторую очередь. Наконец, он переходит к третьему потоку, который будет выполнять различные операции со строкой. На данный момент он просто печатает его в целях отладки.

Код: Выделить всё

import sounddevice as sd
import numpy as np
import threading
import queue
import time
from faster_whisper import WhisperModel
audio_model = WhisperModel(model_path)  # Initialize faster_whisper model
fs = 44100  # Sampling rate
audio_q = queue.Queue()  # Queue to communicate raw audio data between threads
text_q = queue.Queue()  # Queue to communicate transcribed text between threads
short_chunk_duration = 0.1  # Short chunk duration in seconds (e.g., 100ms)
long_chunk_duration = 5  # Desired chunk duration in seconds (5 seconds)

# --- Thread Functions ---
def record_audio():
"""Continuously records audio and adds 5-second chunks to the queue."""

accumulated_buffer = []

def callback(indata, frames, time, status):
nonlocal accumulated_buffer
if status:
print(status)

accumulated_buffer.append(indata.copy())

# Check if we have accumulated enough data for a 5-second chunk
if (
len(accumulated_buffer) * int(short_chunk_duration * fs)
>= long_chunk_duration * fs
):
# Concatenate the accumulated chunks into one array
long_chunk = np.concatenate(accumulated_buffer)
audio_q.put(long_chunk)  # Add the 5-second chunk to the queue
accumulated_buffer = []  # Reset the buffer

with sd.InputStream(samplerate=fs, channels=1, callback=callback):
while True:
sd.sleep(int(short_chunk_duration * 1000))

def transcribe_audio():
"""Takes audio from the queue, transcribes it, and puts text in the queue."""

while True:
audio_data = audio_q.get()
audio_array = np.frombuffer(audio_data, dtype=np.float32)

# Confirming audio_array fits the requirements of faster_whisper
if audio_array.ndim == 1:
audio_array = np.expand_dims(audio_array, axis=0)

# Transcribe with faster_whisper
segments, _ = audio_model.transcribe(audio_array)

# The result structure is different; let's collect all transcriptions
text = ""
for segment in segments:
text += segment.text

print(f"Transcribed: {text}")

audio_q.task_done()
text_q.put(text)  # Put transcribed text into the queue

def process_text():
pass
# --- Start Threads ---
if __name__ == "__main__":
recording_thread = threading.Thread(target=record_audio)
transcribing_thread = threading.Thread(target=transcribe_audio)
processing_thread = threading.Thread(target=process_text)

recording_thread.daemon = True
transcribing_thread.daemon = True
processing_thread.daemon = True

recording_thread.start()
transcribing_thread.start()
processing_thread.start()

try:
while True:
time.sleep(1)
except KeyboardInterrupt:
print("Terminating threads...")

Он должен расшифровать мой микрофон частями по 5 секунд, а затем распечатать его на консоли, однако он выдает мне ошибку, сообщающую, что он пытается выделить 960 ГБ оперативной памяти для numpy. Я не часто использовал numpy, поэтому предполагаю, что это как-то связано с логикой, которая расширяет аудиообъект в массив.

Подробнее здесь: https://stackoverflow.com/questions/786 ... microphone

Реклама

1719594004

Anonymous

Я пытаюсь создать приложение, которое записывает звук моего микрофона в один поток и создает 5-секундные фрагменты.  Затем он помещает каждый из этих фрагментов в очередь, которая отправляет его во второй поток для расшифровки аудио в текст, а затем добавляет текст во вторую очередь.  Наконец, он переходит к третьему потоку, который будет выполнять различные операции со строкой.  На данный момент он просто печатает его в целях отладки.
[code]import sounddevice as sd
import numpy as np
import threading
import queue
import time
from faster_whisper import WhisperModel
audio_model = WhisperModel(model_path)  # Initialize faster_whisper model
fs = 44100  # Sampling rate
audio_q = queue.Queue()  # Queue to communicate raw audio data between threads
text_q = queue.Queue()  # Queue to communicate transcribed text between threads
short_chunk_duration = 0.1  # Short chunk duration in seconds (e.g., 100ms)
long_chunk_duration = 5  # Desired chunk duration in seconds (5 seconds)

# --- Thread Functions ---
def record_audio():
"""Continuously records audio and adds 5-second chunks to the queue."""

accumulated_buffer = []

def callback(indata, frames, time, status):
nonlocal accumulated_buffer
if status:
print(status)

accumulated_buffer.append(indata.copy())

# Check if we have accumulated enough data for a 5-second chunk
if (
len(accumulated_buffer) * int(short_chunk_duration * fs)
>= long_chunk_duration * fs
):
# Concatenate the accumulated chunks into one array
long_chunk = np.concatenate(accumulated_buffer)
audio_q.put(long_chunk)  # Add the 5-second chunk to the queue
accumulated_buffer = []  # Reset the buffer

with sd.InputStream(samplerate=fs, channels=1, callback=callback):
while True:
sd.sleep(int(short_chunk_duration * 1000))

def transcribe_audio():
"""Takes audio from the queue, transcribes it, and puts text in the queue."""

while True:
audio_data = audio_q.get()
audio_array = np.frombuffer(audio_data, dtype=np.float32)

# Confirming audio_array fits the requirements of faster_whisper
if audio_array.ndim == 1:
audio_array = np.expand_dims(audio_array, axis=0)

# Transcribe with faster_whisper
segments, _ = audio_model.transcribe(audio_array)

# The result structure is different; let's collect all transcriptions
text = ""
for segment in segments:
text += segment.text

print(f"Transcribed: {text}")

audio_q.task_done()
text_q.put(text)  # Put transcribed text into the queue

def process_text():
pass
# --- Start Threads ---
if __name__ == "__main__":
recording_thread = threading.Thread(target=record_audio)
transcribing_thread = threading.Thread(target=transcribe_audio)
processing_thread = threading.Thread(target=process_text)

recording_thread.daemon = True
transcribing_thread.daemon = True
processing_thread.daemon = True

recording_thread.start()
transcribing_thread.start()
processing_thread.start()

try:
while True:
time.sleep(1)
except KeyboardInterrupt:
print("Terminating threads...")
[/code]
Он должен расшифровать мой микрофон частями по 5 секунд, а затем распечатать его на консоли, однако он выдает мне ошибку, сообщающую, что он пытается выделить 960 ГБ оперативной памяти для numpy.  Я не часто использовал numpy, поэтому предполагаю, что это как-то связано с логикой, которая расширяет аудиообъект в массив. 

Подробнее здесь: [url]https://stackoverflow.com/questions/78683660/can-anyone-tell-whats-wrong-with-this-script-that-should-process-my-microphone[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Должен ли входной размер ламы совпадать с выходным размером (ожидаемый входной размер пакета должен соответствовать целе

Последнее сообщение Anonymous « 23 янв 2025, 19:47
Добавлено в форуме Python

Anonymous » 23 янв 2025, 19:47 » в форуме Python

Когда я точно настраиваю Llama3.2(11B/8B) для генерации целевого текста
with self.maybe_autocast():
outputs = self.llama_model(
input_ids=None,
inputs_embeds=concat_inputs_embeds,
attention_mask=mask,
labels=targets
)
loss = outputs.loss
return...

0 Ответы

41 Просмотры

Последнее сообщение Anonymous
23 янв 2025, 19:47
Должен ли входной размер ламы совпадать с выходным размером (ожидаемый входной размер пакета должен соответствовать целе

Последнее сообщение Anonymous « 24 янв 2025, 01:49
Добавлено в форуме Python

Anonymous » 24 янв 2025, 01:49 » в форуме Python

Когда я точно настраиваю Llama3.2(11B/8B) для генерации целевого текста
with self.maybe_autocast():
outputs = self.llama_model(
input_ids=None,
inputs_embeds=concat_inputs_embeds,
attention_mask=mask,
labels=targets
)
loss = outputs.loss
return...

0 Ответы

57 Просмотры

Последнее сообщение Anonymous
24 янв 2025, 01:49
Может ли кто-нибудь сказать мне, что это за обфускатор, и если да, то может ли кто-нибудь его деобфусцировать? [закрыто]

Последнее сообщение Гость « 09 мар 2024, 21:31
Добавлено в форуме C#

Гость » 09 мар 2024, 21:31 » в форуме C#

Here is the source

I would really appreciate if someone could deobfusticate and send it back to me
Ive tried a few deobfusticators but they didnt work
If you are able to deobfusticate please send it to gofile and upload the link, thanks...

0 Ответы

46 Просмотры

Последнее сообщение Гость
09 мар 2024, 21:31
Входной аудио из микрофона не собирается при воспроизведении звука

Последнее сообщение Anonymous « 05 авг 2025, 10:07
Добавлено в форуме Python

Anonymous » 05 авг 2025, 10:07 » в форуме Python

Я разрабатываю простой голосовой бот в реальном времени, используя API Openai в реальном времени, в частности, интегрируясь с семантическим ядром. Код написан асинхронным образом, и изначально он работает хорошо. Тем не менее, я сталкиваюсь с...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
05 авг 2025, 10:07
Android Adb, как отправлять непрерывный входной сигнал с задержкой 0 с

Последнее сообщение Anonymous « 05 июл 2024, 05:20
Добавлено в форуме Android

Anonymous » 05 июл 2024, 05:20 » в форуме Android

Я хочу создать программу для автоматического непрерывного нажатия на экран телефона Android.
Я попробовал «ввод оболочки adb нажмите x y» в LOOP, но очень медленно (около 1 с).
/>Я попробовал несколько команд, например: «ввод оболочки adb нажмите x1...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
05 июл 2024, 05:20

Вернуться в «Python»

Programmiererforum