SFSpeechRecouncer — обнаружить конец высказывания

SFSpeechRecouncer — обнаружить конец высказывания ⇐ IOS

1 сообщение • Страница 1 из 1

Anonymous

SFSpeechRecouncer — обнаружить конец высказывания

Цитата

Сообщение Anonymous » 22 ноя 2025, 11:39

Я разрабатываю небольшой проект, используя встроенное в iOS 10 распознавание речи. У меня есть результаты работы с помощью микрофона устройства, моя речь распознается очень точно.

Моя проблема в том, что обратный вызов задачи распознавания вызывается для каждой доступной частичной транскрипции, и я хочу, чтобы он обнаруживал, что человек перестал говорить, и вызывал обратный вызов со свойством isFinal, установленным в true. Этого не происходит — приложение прослушивает бесконечно.

Может ли SFSpeechRecouncer когда-либо определять конец предложения?

Вот мой код — он основан на примере, найденном в Интернете, в основном это шаблон, необходимый для распознавания из источника микрофона.
Я изменил его, добавив распознавание TaskHint. Я также установил для mustReportPartialResults значение false, но, похоже, это было проигнорировано.

func startRecording() {

if recognitionTask != nil {
recognitionTask?.cancel()
recognitionTask = nil
}

let audioSession = AVAudioSession.sharedInstance()
do {
try audioSession.setCategory(AVAudioSessionCategoryRecord)
try audioSession.setMode(AVAudioSessionModeMeasurement)
try audioSession.setActive(true, with: .notifyOthersOnDeactivation)
} catch {
print("audioSession properties weren't set because of an error.")
}

recognitionRequest = SFSpeechAudioBufferRecognitionRequest()
recognitionRequest?.shouldReportPartialResults = false
recognitionRequest?.taskHint = .search

guard let inputNode = audioEngine.inputNode else {
fatalError("Audio engine has no input node")
}

guard let recognitionRequest = recognitionRequest else {
fatalError("Unable to create an SFSpeechAudioBufferRecognitionRequest object")
}

recognitionRequest.shouldReportPartialResults = true

recognitionTask = speechRecognizer?.recognitionTask(with: recognitionRequest, resultHandler: { (result, error) in

var isFinal = false

if result != nil {
print("RECOGNIZED \(result?.bestTranscription.formattedString)")
self.transcriptLabel.text = result?.bestTranscription.formattedString
isFinal = (result?.isFinal)!
}

if error != nil || isFinal {
self.state = .Idle

self.audioEngine.stop()
inputNode.removeTap(onBus: 0)

self.recognitionRequest = nil
self.recognitionTask = nil

self.micButton.isEnabled = true

self.say(text: "OK. Let me see.")
}
})

let recordingFormat = inputNode.outputFormat(forBus: 0)
inputNode.installTap(onBus: 0, bufferSize: 1024, format: recordingFormat) { (buffer, when) in
self.recognitionRequest?.append(buffer)
}

audioEngine.prepare()

do {
try audioEngine.start()
} catch {
print("audioEngine couldn't start because of an error.")
}

transcriptLabel.text = "Say something, I'm listening!"

state = .Listening
}

Подробнее здесь: https://stackoverflow.com/questions/425 ... -utterance

1763800796

Anonymous

Я разрабатываю небольшой проект, используя встроенное в iOS 10 распознавание речи. У меня есть результаты работы с помощью микрофона устройства, моя речь распознается очень точно.

Моя проблема в том, что обратный вызов задачи распознавания вызывается для каждой доступной частичной транскрипции, и я хочу, чтобы он [b]обнаруживал, что человек перестал говорить[/b], и вызывал обратный вызов со свойством isFinal, установленным в true. Этого не происходит — приложение прослушивает бесконечно.

Может ли SFSpeechRecouncer когда-либо определять конец предложения?

Вот мой код — он основан на примере, найденном в Интернете, в основном это шаблон, необходимый для распознавания из источника микрофона.
Я изменил его, добавив распознавание TaskHint. Я также установил для mustReportPartialResults значение false, но, похоже, это было проигнорировано.

    func startRecording() {

if recognitionTask != nil {
recognitionTask?.cancel()
recognitionTask = nil
}

let audioSession = AVAudioSession.sharedInstance()
do {
try audioSession.setCategory(AVAudioSessionCategoryRecord)
try audioSession.setMode(AVAudioSessionModeMeasurement)
try audioSession.setActive(true, with: .notifyOthersOnDeactivation)
} catch {
print("audioSession properties weren't set because of an error.")
}

recognitionRequest = SFSpeechAudioBufferRecognitionRequest()
recognitionRequest?.shouldReportPartialResults = false
recognitionRequest?.taskHint = .search

guard let inputNode = audioEngine.inputNode else {
fatalError("Audio engine has no input node")
}

guard let recognitionRequest = recognitionRequest else {
fatalError("Unable to create an SFSpeechAudioBufferRecognitionRequest object")
}

recognitionRequest.shouldReportPartialResults = true

recognitionTask = speechRecognizer?.recognitionTask(with: recognitionRequest, resultHandler: { (result, error) in

var isFinal = false

if result != nil {
print("RECOGNIZED \(result?.bestTranscription.formattedString)")
self.transcriptLabel.text = result?.bestTranscription.formattedString
isFinal = (result?.isFinal)!
}

if error != nil || isFinal {
self.state = .Idle

self.audioEngine.stop()
inputNode.removeTap(onBus: 0)

self.recognitionRequest = nil
self.recognitionTask = nil

self.micButton.isEnabled = true

self.say(text: "OK. Let me see.")
}
})

let recordingFormat = inputNode.outputFormat(forBus: 0)
inputNode.installTap(onBus: 0, bufferSize: 1024, format: recordingFormat) { (buffer, when) in
self.recognitionRequest?.append(buffer)
}

audioEngine.prepare()

do {
try audioEngine.start()
} catch {
print("audioEngine couldn't start because of an error.")
}

transcriptLabel.text = "Say something, I'm listening!"

state = .Listening
}
 

Подробнее здесь: [url]https://stackoverflow.com/questions/42530634/sfspeechrecognizer-detect-end-of-utterance[/url]