Преобразование речи в текст с помощью микрофона и преобразователей с обнимающим лицом. Получение пустых результатов.

Преобразование речи в текст с помощью микрофона и преобразователей с обнимающим лицом. Получение пустых результатов. ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Преобразование речи в текст с помощью микрофона и преобразователей с обнимающим лицом. Получение пустых результатов.

Сообщение Anonymous » 22 окт 2025, 18:14

Я пытаюсь реализовать службу преобразования речи в текст в реальном времени, используя модели обнимающихся лиц и локальный микрофон. Я могу видеть данные, поступающие с микрофона (я распечатывал данные в байтах). но я получаю пустые результаты, когда передаю байтовые данные в конвейер Huggingface, как показано ниже.

Код: Выделить всё

import speech_recognition as sr
from transformers import pipeline

import numpy as np
model = pipeline(model="facebook/wav2vec2-base-960h")

# obtain audio from the microphone
r = sr.Recognizer()
with sr.Microphone() as source:
print("Say something!")
audio = r.listen(source)
#convert audio buffer to numpy array
data = np.frombuffer(audio.get_raw_data())
output = model(data)
print(output)

вывод просто

Код: Выделить всё

Downloading: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2.79k/2.79k [00:00

Подробнее здесь: [url]https://stackoverflow.com/questions/73659692/speech-to-text-with-mic-and-hugging-face-transformers-getting-empty-results[/url]

Anonymous

1 сообщение • Страница 1 из 1

Вернуться в «Python»