Я работаю с набором данных, размером около ~ 900 данных DataPoints W.R.T, на открытый обследование удовлетворенности. чрезвычайно гетероген, собирается и транскрибируется несколькими разными интервьюерами, которые имеют разные методы отмечения того, что написали респонденты. У некоторых есть номер идентификации опроса, упомянутый в стенограмме, некоторые нет, некоторые из них находятся от первого лица, а некоторые от третьего лица, в нескольких ответах есть ошибки правописания и т. Д. В такой ситуации, если я запускаю обычный классификатор BERT и получу векторные встраивания, будет ли это значимым? Я предполагаю, что мне нужно преобразовать данные в какую -то однородную форму, после которой я могу сделать любой анализ. Получив эту выдающуюся тему, я предполагаю, что мне придется вручную пометить некоторые данные и провести некоторое тестирование/обучение, но я немного нечетком в процессе и буду признателен за любую помощь. Спасибо!
Подробнее здесь: https://stackoverflow.com/questions/796 ... se-dataset
Задача моделирования с открытым набором обработки телефонных исследований с открытым концом ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Как инструменты аналитики и исследований Pinterest получают доступ к данным?
Anonymous » » в форуме Python - 0 Ответы
- 16 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Как инструменты аналитики и исследований Pinterest получают доступ к данным? [закрыто]
Anonymous » » в форуме Python - 0 Ответы
- 7 Просмотры
-
Последнее сообщение Anonymous
-