Борьба с кумулятивным смещением фонетического выравнивания в системе коррекции чтения Корана на основе CTC

Борьба с кумулятивным смещением фонетического выравнивания в системе коррекции чтения Корана на основе CTC ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Борьба с кумулятивным смещением фонетического выравнивания в системе коррекции чтения Корана на основе CTC

Цитата

Сообщение Anonymous » 24 янв 2026, 15:19

Контекст проблемы: Я создаю систему коррекции чтения Корана, используя точно настроенную модель Wav2Vec2-Bert для многоуровневого декодирования CTC. Конвейер берет аудио пользователя, прогнозирует фонемы (Sifat) и сравнивает их со ссылкой, сгенерированной фонетическим транскрибатором (

Код: Выделить всё

quran_phonetizer

).
Техническая проблема: В длинных аяях (последовательности > 20 слов) я сталкиваюсь с кумулятивным смещением выравнивания (сдвигом). Поскольку модели CTC не обеспечивают идеальных границ слов, а чтение Корана включает в себя «Связную речь» (Wasl), при которой фонемы выпадают или сливаются (например, Ighdam, Hamzatul Wasl), глобальное выравнивание с использованием difflib.SequenceMatcher начинает смещаться.
К середине длинного аята ошибка в слове № 4 приводит к тому, что слово № 5 сопоставляется с фонемами слова № 6, что приводит к «фантомным» ошибкам и значительному падению точности (иногда до < 5%).
Текущая логика: Я использую взвешенное пропорциональное сопоставление, при котором вычисляю «фонетический вес» каждого слова и соответствующим образом распределяю глобальный ссылочный индекс, а затем применяю SequenceMatche

Подробнее здесь: https://stackoverflow.com/questions/798 ... recitation

1769257177

Anonymous

[b]Контекст проблемы:[/b] Я создаю систему коррекции чтения Корана, используя точно настроенную модель [b]Wav2Vec2-Bert[/b] для многоуровневого декодирования CTC. Конвейер берет аудио пользователя, прогнозирует фонемы (Sifat) и сравнивает их со ссылкой, сгенерированной фонетическим транскрибатором ([code]quran_phonetizer[/code]).
[b]Техническая проблема:[/b] В длинных аяях (последовательности > 20 слов) я сталкиваюсь с [b]кумулятивным смещением выравнивания (сдвигом)[/b]. Поскольку модели CTC не обеспечивают идеальных границ слов, а чтение Корана включает в себя «Связную речь» (Wasl), при которой фонемы выпадают или сливаются (например, Ighdam, Hamzatul Wasl), глобальное выравнивание с использованием difflib.SequenceMatcher начинает смещаться.
К середине длинного аята ошибка в слове № 4 приводит к тому, что слово № 5 сопоставляется с фонемами слова № 6, что приводит к «фантомным» ошибкам и значительному падению точности (иногда до < 5%).
[b]Текущая логика:[/b] Я использую взвешенное пропорциональное сопоставление, при котором вычисляю «фонетический вес» каждого слова и соответствующим образом распределяю глобальный ссылочный индекс, а затем применяю SequenceMatche 

Подробнее здесь: [url]https://stackoverflow.com/questions/79875146/dealing-with-cumulative-phonetic-alignment-drift-in-ctc-based-quranic-recitation[/url]

Ответить

1 сообщение • Страница 1 из 1