Как я могу сгруппировать транскрибированные фразы в значимые фрагменты, не используя сложные модели?Python

Программы на Python
Ответить
Anonymous
 Как я могу сгруппировать транскрибированные фразы в значимые фрагменты, не используя сложные модели?

Сообщение Anonymous »

У меня есть большой набор фраз, полученных с помощью Azure Fast Transcription, и мне нужно сгруппировать их в связные семантические фрагменты (для дальнейшего использования в конвейере RAG).
Изначально я пробовал группировать фразы на основе пауз говорящего (например, объединять фразы, когда паузы ниже определенного порога), но этот подход недостаточно универсален — разные говорящие имеют очень разные шаблоны пауз (некоторые делают паузу на 0,5 секунды, другие на 2 секунды, даже в пределах одной записи).
Из-за ограничений проекта я не могу использовать сложные модели НЛП или внедрения, поэтому я ищу облегченный или эвристический подход для объединения последовательных фраз в семантически значимые фрагменты.

Подробнее здесь: https://stackoverflow.com/questions/798 ... ng-complex
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»