Как избежать отображения фантомных текстовых результатов из преобразования речи в текст Azure через звук микрофона? - Цифровое Кемерово

Как избежать отображения фантомных текстовых результатов из преобразования речи в текст Azure через звук микрофона? ⇐ C#

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как избежать отображения фантомных текстовых результатов из преобразования речи в текст Azure через звук микрофона?

Цитата

Сообщение Anonymous » 05 дек 2024, 06:27

У меня есть код C#, который выполняет преобразование речи в текст и машинный перевод с использованием звука, поступающего с микрофона, через Azure Cognitive Services. У нас запущено несколько экземпляров этого приложения (по одному экземпляру для каждого пользователя), пока пользователи присоединяются к веб-собранию. Результаты идентификации языка, преобразования речи в текст и машинного перевода подходят для тех высказываний, которые фактически произносят пользователи. Однако мы часто получаем фантомные текстовые результаты для результатов преобразования речи в текст, даже если мы не произносили эти высказывания (см. 3 случая ошибочных в двух разделах «Результаты выполнения» ниже). Есть идеи, как мне избежать этого фантомного текста? (Я бы предпочел не использовать собственные речевые модели, если это вообще возможно.)
Результаты выполнения для первого пользователя (Tetu): пример вывода в графическом интерфейсе первого экземпляра приложения. :
Тету: Это предложение №1. [Примечание Тету: результат преобразования речи в текст правильный.]
これは文#1です。[Примечание Тету: результат машинного перевода на японский язык правильный.]
Тету: Это все. [Примечание Тету: этот результат преобразования речи в текст является ошибочным (это фантомный текст, который НЕ произносил пользователь).]
以上です。
Тету: Это предложение №2. [Примечание Тету: результат преобразования речи в текст правильный.]
これは文#2です。
Тету: Это другое предложение. [Примечание Тету: результат преобразования речи в текст правильный.]
これは別の文です。
Тету: Встреча назначена. [Примечание Тету: результат преобразования речи в текст ошибочный (это фантомный текст, который НЕ произносил пользователь).]
この会議は呼び出されます。
Результаты выполнения для второго пользователя (Диана): Пример вывода в графическом интерфейсе второго пользователя пример приложения:
Диана: Это высказывание №1. [Примечание Тету: результат преобразования речи в текст правильный.]
これは発話#1です。
Диана: Это высказывание №2. [Примечание Тету: результат преобразования речи в текст правильный.]
これは発話#2です。
Диана: Сингапурское предложение. [Примечание Тету: этот результат преобразования речи в текст является ошибочным (это фантомный текст, который НЕ произносил пользователь).]
シンガポールの文。
Диана: Эта встреча предназначена для урегулирования WS. [Примечание Тету: результат преобразования речи в текст правильный.]
この会議はWS調整のためのものです。
Проведенные тесты и результаты

Получены эти фантомные текстовые результаты, когда каждый из двух пользователей (в отдельных здания) запустил экземпляр этого приложения во время участия в собрании Microsoft Teams. Также подтверждено, что мы получили фантомные текстовые результаты для собрания Zoom. Ожидается: фантомный текст отсутствует.
Проверено с использованием папиросной бумаги, завернутой в тонкую бумагу и прикрепленной к микрофону на штанге гарнитуры, используемой обоими пользователями. Количество результатов фантомного текста имело тенденцию к уменьшению. Фантомный текст также уменьшался, когда оба пользователя держали гарнитуру на расстоянии примерно 2 футов (60 см) ото рта. (Оба пользователя использовали гарнитуры серии Plantronics Blackwire 3220.) Ожидаемое: отсутствие фантомного текста.
Проверено с использованием внутреннего микрофона компьютеров обоих пользователей; количество результатов фантомного текста имело тенденцию к уменьшению. Ожидается: нет фантомного текста.
Программно уменьшена громкость записи звука с микрофона (с +5,0 дБ до +1,0 дБ), но фантомный текст по-прежнему сохраняется. Кроме того, MS Teams, похоже, автоматически увеличивала громкость записи (когда мы проверяли уровень записи в Windows). Ожидается: нет фантомного текста.
Не получено фантомного текста при запуске только одного экземпляра этого приложения. Это то, что мы ожидали.

Фрагмент используемого кода:

Код: Выделить всё

public static async Task TranslationWithMicrophoneAsync_withLanguageDetectionEnabled()
{
InitializeInPrepForEventHandlerSetup_MicAudio();

using (var recognizerFromMicrophone = new TranslationRecognizer(TetusGlobals.config, TetusGlobals.autoDetectSourceLanguageConfig))
{
recognizerFromMicrophone.Recognizing += (s, e) =>
{
var lidResult = e.Result.Properties.GetProperty(PropertyId.SpeechServiceConnection_AutoDetectSourceLanguageResult);

var sttResults = e.Result.Text;
if (!string.IsNullOrEmpty(sttResults))
{
if (lidResult == "ja-JP")
{
var resultOfMT_E = e.Result.Translations["en-US"];
if (!string.IsNullOrEmpty(resultOfMT_E))
{
curMTresult = resultOfMT_E;
}
}

else if (lidResult == "en-US")
{
var resultOfMT_J = e.Result.Translations["ja-JP"];
if (!string.IsNullOrEmpty(resultOfMT_J))
{
curMTresult = resultOfMT_J;
}
}

curSTTandMTresults =
curPersonsNameAsPrefix + ": " + sttResults + carriageReturnString + curMTresult;

bool foundFinalSttAndMtResults = false;
Tetu_WriteSttAndMtResults(curSTTandMTresults, foundFinalSttAndMtResults);
}
};

recognizerFromMicrophone.Recognized += (s, e) =>
{
if (e.Result.Reason == ResultReason.TranslatedSpeech)
{
var lidResult = e.Result.Properties.GetProperty(PropertyId.SpeechServiceConnection_AutoDetectSourceLanguageResult);

var sttResults = e.Result.Text;
if (!string.IsNullOrEmpty(sttResults))
{
if (lidResult == "ja-JP")
{
var resultOfMT_E = e.Result.Translations["en-US"];
if (!string.IsNullOrEmpty(resultOfMT_E))
{
curMTresult = resultOfMT_E;
}
}

else if (lidResult == "en-US")
{
var resultOfMT_J = e.Result.Translations["ja-JP"];
if (!string.IsNullOrEmpty(resultOfMT_J))
{
curMTresult = resultOfMT_J;
}
}

curSTTandMTresults =
curPersonsNameAsPrefix + ": " + sttResults + carriageReturnString + curMTresult;

bool foundFinalSttAndMtResults = true;
Tetu_WriteSttAndMtResults(curSTTandMTresults, foundFinalSttAndMtResults);
}
}
};

await recognizerFromMicrophone.StartContinuousRecognitionAsync().ConfigureAwait(false);

do
{
} while (true);
}
}

Среда или зависимости, которые я использую:
• Windows 10 (версия 22H2 (сборка ОС 19045.5131))
• Microsoft .NET Framework (версия 4.8.04084)

• Microsoft Visual Studio Professional 2019 (версия 16.11.35)
• Microsoft Cognitive Services Speech SDK (версия 1.41.1)
• NAudio (версия 2.2.1)

Подробнее здесь: https://stackoverflow.com/questions/792 ... via-mic-au

Реклама

1733369270

Anonymous

У меня есть код C#, который выполняет преобразование речи в текст и машинный перевод с использованием звука, поступающего с микрофона, через Azure Cognitive Services. У нас запущено несколько экземпляров этого приложения (по одному экземпляру для каждого пользователя), пока пользователи присоединяются к веб-собранию. Результаты идентификации языка, преобразования речи в текст и машинного перевода подходят для тех высказываний, которые фактически произносят пользователи. Однако мы часто получаем фантомные текстовые результаты для результатов преобразования речи в текст, даже если мы не произносили эти высказывания (см. 3 случая [b]ошибочных[/b] в двух разделах «Результаты выполнения» ниже). Есть идеи, как мне избежать этого фантомного текста? (Я бы предпочел не использовать собственные речевые модели, если это вообще возможно.)
Результаты выполнения для первого пользователя (Tetu): пример вывода в графическом интерфейсе первого экземпляра приложения. :
Тету: Это предложение №1.   [Примечание Тету: результат преобразования речи в текст правильный.]
これは文#1です。[Примечание Тету: результат машинного перевода на японский язык правильный.]
Тету: Это все.   [Примечание Тету: этот результат преобразования речи в текст является [b]ошибочным[/b] (это фантомный текст, который НЕ произносил пользователь).]
以上です。
Тету: Это предложение №2.   [Примечание Тету: результат преобразования речи в текст правильный.]
これは文#2です。
Тету: Это другое предложение.   [Примечание Тету: результат преобразования речи в текст правильный.]
これは別の文です。
Тету: Встреча назначена.   [Примечание Тету: результат преобразования речи в текст [b]ошибочный[/b] (это фантомный текст, который НЕ произносил пользователь).]
この会議は呼び出されます。
Результаты выполнения для второго пользователя (Диана): Пример вывода в графическом интерфейсе второго пользователя пример приложения:
Диана: Это высказывание №1.   [Примечание Тету: результат преобразования речи в текст правильный.]
これは発話#1です。
Диана: Это высказывание №2.   [Примечание Тету: результат преобразования речи в текст правильный.]
これは発話#2です。
Диана: Сингапурское предложение.   [Примечание Тету: этот результат преобразования речи в текст является [b]ошибочным[/b] (это фантомный текст, который НЕ произносил пользователь).]
シンガポールの文。
Диана: Эта встреча предназначена для урегулирования WS.   [Примечание Тету: результат преобразования речи в текст правильный.]
この会議はWS調整のためのものです。
Проведенные тесты и результаты[list]
[*]Получены эти фантомные текстовые результаты, когда каждый из двух пользователей (в отдельных здания) запустил экземпляр этого приложения во время участия в собрании Microsoft Teams. Также подтверждено, что мы получили фантомные текстовые результаты для собрания Zoom. Ожидается: фантомный текст отсутствует.
[*]Проверено с использованием папиросной бумаги, завернутой в тонкую бумагу и прикрепленной к микрофону на штанге гарнитуры, используемой обоими пользователями. Количество результатов фантомного текста имело тенденцию к уменьшению. Фантомный текст также уменьшался, когда оба пользователя держали гарнитуру на расстоянии примерно 2 футов (60 см) ото рта. (Оба пользователя использовали гарнитуры серии Plantronics Blackwire 3220.) Ожидаемое: отсутствие фантомного текста.
[*]Проверено с использованием внутреннего микрофона компьютеров обоих пользователей; количество результатов фантомного текста имело тенденцию к уменьшению. Ожидается: нет фантомного текста.
[*]Программно уменьшена громкость записи звука с микрофона (с +5,0 дБ до +1,0 дБ), но фантомный текст по-прежнему сохраняется. Кроме того, MS Teams, похоже, автоматически увеличивала громкость записи (когда мы проверяли уровень записи в Windows). Ожидается: нет фантомного текста.
[*]Не получено фантомного текста при запуске только одного экземпляра этого приложения.  Это то, что мы ожидали.
[/list]
Фрагмент используемого кода:
[code]public static async Task TranslationWithMicrophoneAsync_withLanguageDetectionEnabled()
{
InitializeInPrepForEventHandlerSetup_MicAudio();

using (var recognizerFromMicrophone = new TranslationRecognizer(TetusGlobals.config, TetusGlobals.autoDetectSourceLanguageConfig))
{
recognizerFromMicrophone.Recognizing += (s, e) =>
{
var lidResult = e.Result.Properties.GetProperty(PropertyId.SpeechServiceConnection_AutoDetectSourceLanguageResult);

var sttResults = e.Result.Text;
if (!string.IsNullOrEmpty(sttResults))
{
if (lidResult == "ja-JP")
{
var resultOfMT_E = e.Result.Translations["en-US"];
if (!string.IsNullOrEmpty(resultOfMT_E))
{
curMTresult = resultOfMT_E;
}
}

else if (lidResult == "en-US")
{
var resultOfMT_J = e.Result.Translations["ja-JP"];
if (!string.IsNullOrEmpty(resultOfMT_J))
{
curMTresult = resultOfMT_J;
}
}

curSTTandMTresults =
curPersonsNameAsPrefix + ": " + sttResults + carriageReturnString + curMTresult;

bool foundFinalSttAndMtResults = false;
Tetu_WriteSttAndMtResults(curSTTandMTresults, foundFinalSttAndMtResults);
}
};

recognizerFromMicrophone.Recognized += (s, e) =>
{
if (e.Result.Reason == ResultReason.TranslatedSpeech)
{
var lidResult = e.Result.Properties.GetProperty(PropertyId.SpeechServiceConnection_AutoDetectSourceLanguageResult);

var sttResults = e.Result.Text;
if (!string.IsNullOrEmpty(sttResults))
{
if (lidResult == "ja-JP")
{
var resultOfMT_E = e.Result.Translations["en-US"];
if (!string.IsNullOrEmpty(resultOfMT_E))
{
curMTresult = resultOfMT_E;
}
}

else if (lidResult == "en-US")
{
var resultOfMT_J = e.Result.Translations["ja-JP"];
if (!string.IsNullOrEmpty(resultOfMT_J))
{
curMTresult = resultOfMT_J;
}
}

curSTTandMTresults =
curPersonsNameAsPrefix + ": " + sttResults + carriageReturnString + curMTresult;

bool foundFinalSttAndMtResults = true;
Tetu_WriteSttAndMtResults(curSTTandMTresults, foundFinalSttAndMtResults);
}
}
};

await recognizerFromMicrophone.StartContinuousRecognitionAsync().ConfigureAwait(false);

do
{
} while (true);
}
}
[/code]
Среда или зависимости, которые я использую:
• Windows 10 (версия 22H2 (сборка ОС 19045.5131))
• Microsoft .NET Framework (версия 4.8.04084)

• Microsoft Visual Studio Professional 2019 (версия 16.11.35)
• Microsoft Cognitive Services Speech SDK (версия 1.41.1)
• NAudio (версия 2.2.1) 

Подробнее здесь: [url]https://stackoverflow.com/questions/79253316/how-to-avoid-phantom-text-results-displayed-from-azure-speech-to-text-via-mic-au[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Проблема преобразования речи в текст и речи в веб-плеере

Последнее сообщение Гость « 19 сен 2023, 19:16
Добавлено в форуме Javascript

Гость » 19 сен 2023, 19:16 » в форуме Javascript

Я работаю над функциональностью, которую можно будет подключить к веб-видеоплееру, в данном случае JW Player, где пользователь выбирает язык, и звук будет обрабатываться с помощью моего специального API перевода 1.) Преобразование речи в текст и 2.)...

0 Ответы

139 Просмотры

Последнее сообщение Гость
19 сен 2023, 19:16
IOS – Как воспроизвести звук AEC с динамика телефона (только звук с микрофона)

Последнее сообщение Anonymous « 04 июл 2024, 12:17
Добавлено в форуме IOS

Anonymous » 04 июл 2024, 12:17 » в форуме IOS

В нашем проекте для записи входного аудио используется приведенный ниже код:

let request = SFSpeechAudioBufferRecognitionRequest()
inputNode.installTap(onBus: 0, bufferSize: 1024, format: recordingFormat) { buffer, when in
request.append(buffer)...

0 Ответы

30 Просмотры

Последнее сообщение Anonymous
04 июл 2024, 12:17
IOS – Как воспроизвести звук AEC с динамика телефона (только звук с микрофона)

Последнее сообщение Anonymous « 05 июл 2024, 09:19
Добавлено в форуме IOS

Anonymous » 05 июл 2024, 09:19 » в форуме IOS

В нашем проекте для записи входного аудио используется приведенный ниже код:

let request = SFSpeechAudioBufferRecognitionRequest()
inputNode.installTap(onBus: 0, bufferSize: 1024, format: recordingFormat) { buffer, when in
request.append(buffer)...

0 Ответы

34 Просмотры

Последнее сообщение Anonymous
05 июл 2024, 09:19
IOS – Как воспроизвести звук AEC с динамика телефона (только звук с микрофона)

Последнее сообщение Anonymous « 09 июл 2024, 05:14
Добавлено в форуме IOS

Anonymous » 09 июл 2024, 05:14 » в форуме IOS

В нашем проекте для записи входного аудио используется приведенный ниже код:

let request = SFSpeechAudioBufferRecognitionRequest()
inputNode.installTap(onBus: 0, bufferSize: 1024, format: recordingFormat) { buffer, when in
request.append(buffer)...

0 Ответы

37 Просмотры

Последнее сообщение Anonymous
09 июл 2024, 05:14
Преобразование речи в текст, API речи Java, где его найти?

Последнее сообщение Anonymous « 23 окт 2024, 16:17
Добавлено в форуме JAVA

Anonymous » 23 окт 2024, 16:17 » в форуме JAVA

Мне нужно распознавание речи, поэтому API речи Java кажется довольно хорошим решением моей проблемы с поиском подходящего API. Я попробовал API Sphinx-4, но не смог найти никаких JAR-файлов в загруженном мной пакете PreAlpha.zip. Я смог найти только...

0 Ответы

28 Просмотры

Последнее сообщение Anonymous
23 окт 2024, 16:17

Вернуться в «C#»

Programmiererforum