Заполнение расширенных данных во фрейме данных

Заполнение расширенных данных во фрейме данных ⇐ Python

1 сообщение • Страница 1 из 1

Гость

Заполнение расширенных данных во фрейме данных

Сообщение Гость » 01 ноя 2023, 15:51

У меня есть несбалансированные банковские текстовые данные с несколькими классами, насчитывающие около 76 классов. Классы плохо распределены, например, один класс, который представляет собой комбинацию 240 других различных категорий, представляет 50% данных. остальные 75 классов сильно несбалансированы. Я пробовал методы балансировки данных, такие как: вес класса модели, случайная недостаточная выборка, случайная избыточная выборка, но ни один из них не смог обеспечить мне взвешенную точность более 60%. Количество Class_label указано для справки:
[*]0,48 (комбинированный класс) [*]0,08 [*]0,06 [*]0,004
и так далее по аналогичной схеме.

Я собираюсь попробовать подход к увеличению данных. Пожалуйста, предложите, как использовать этот подход в зависимости от доступности класса и быстро заполнить фрейм данных. код для увеличения выглядит следующим образом:

импортировать nlpaug.augmenter.char как nac импортировать nlpaug.augmenter.word как обычно авг=nac.keybordAug() aug=naw.SynonymAug(aug_sr'wordnet',lang='eng') augmented_text=aug.augmented(df['text'][0],1) # 1, используемый для 3, будет сгенерирован дополненный текст печать (дополненный_текст) Я хочу создать новый фрейм данных с дополненным текстом, вставленным несколько раз в соответствии с их соотношением к набору данных баланса.

Пожалуйста, предложите любой другой подход. согласно постановке задачи.

Гость

1 сообщение • Страница 1 из 1

Вернуться в «Python»