Заполнение расширенных данных во фрейме данных ⇐ Python
-
Гость
Заполнение расширенных данных во фрейме данных
У меня есть несбалансированные банковские текстовые данные с несколькими классами, насчитывающие около 76 классов. Классы плохо распределены, например, один класс, который представляет собой комбинацию 240 других различных категорий, представляет 50% данных. остальные 75 классов сильно несбалансированы. Я пробовал методы балансировки данных, такие как: вес класса модели, случайная недостаточная выборка, случайная избыточная выборка, но ни один из них не смог обеспечить мне взвешенную точность более 60%. Количество Class_label указано для справки:
[*]0,48 (комбинированный класс) [*]0,08 [*]0,06 [*]0,004
и так далее по аналогичной схеме.
Я собираюсь попробовать подход к увеличению данных. Пожалуйста, предложите, как использовать этот подход в зависимости от доступности класса и быстро заполнить фрейм данных. код для увеличения выглядит следующим образом:
импортировать nlpaug.augmenter.char как nac импортировать nlpaug.augmenter.word как обычно авг=nac.keybordAug() aug=naw.SynonymAug(aug_sr'wordnet',lang='eng') augmented_text=aug.augmented(df['text'][0],1) # 1, используемый для 3, будет сгенерирован дополненный текст печать (дополненный_текст) Я хочу создать новый фрейм данных с дополненным текстом, вставленным несколько раз в соответствии с их соотношением к набору данных баланса.
Пожалуйста, предложите любой другой подход. согласно постановке задачи.
У меня есть несбалансированные банковские текстовые данные с несколькими классами, насчитывающие около 76 классов. Классы плохо распределены, например, один класс, который представляет собой комбинацию 240 других различных категорий, представляет 50% данных. остальные 75 классов сильно несбалансированы. Я пробовал методы балансировки данных, такие как: вес класса модели, случайная недостаточная выборка, случайная избыточная выборка, но ни один из них не смог обеспечить мне взвешенную точность более 60%. Количество Class_label указано для справки:
[*]0,48 (комбинированный класс) [*]0,08 [*]0,06 [*]0,004
и так далее по аналогичной схеме.
Я собираюсь попробовать подход к увеличению данных. Пожалуйста, предложите, как использовать этот подход в зависимости от доступности класса и быстро заполнить фрейм данных. код для увеличения выглядит следующим образом:
импортировать nlpaug.augmenter.char как nac импортировать nlpaug.augmenter.word как обычно авг=nac.keybordAug() aug=naw.SynonymAug(aug_sr'wordnet',lang='eng') augmented_text=aug.augmented(df['text'][0],1) # 1, используемый для 3, будет сгенерирован дополненный текст печать (дополненный_текст) Я хочу создать новый фрейм данных с дополненным текстом, вставленным несколько раз в соответствии с их соотношением к набору данных баланса.
Пожалуйста, предложите любой другой подход. согласно постановке задачи.
Мобильная версия