Заполнение расширенных данных во фрейме данныхPython

Программы на Python
Ответить
Гость
 Заполнение расширенных данных во фрейме данных

Сообщение Гость »


У меня есть несбалансированные банковские текстовые данные с несколькими классами, насчитывающие около 76 классов. Классы плохо распределены, например, один класс, который представляет собой комбинацию 240 других различных категорий, представляет 50% данных. остальные 75 классов сильно несбалансированы. Я пробовал методы балансировки данных, такие как: вес класса модели, случайная недостаточная выборка, случайная избыточная выборка, но ни один из них не смог обеспечить мне взвешенную точность более 60%. Количество Class_label указано для справки:
[*]0,48 (комбинированный класс) [*]0,08 [*]0,06 [*]0,004
и так далее по аналогичной схеме.

Я собираюсь попробовать подход к увеличению данных. Пожалуйста, предложите, как использовать этот подход в зависимости от доступности класса и быстро заполнить фрейм данных. код для увеличения выглядит следующим образом:

импортировать nlpaug.augmenter.char как nac импортировать nlpaug.augmenter.word как обычно авг=nac.keybordAug() aug=naw.SynonymAug(aug_sr'wordnet',lang='eng') augmented_text=aug.augmented(df['text'][0],1) # 1, используемый для 3, будет сгенерирован дополненный текст печать (дополненный_текст) Я хочу создать новый фрейм данных с дополненным текстом, вставленным несколько раз в соответствии с их соотношением к набору данных баланса.

Пожалуйста, предложите любой другой подход. согласно постановке задачи.
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»