Как обрабатывать набор данных дисбаланса в NER? - Цифровое Кемерово

Как обрабатывать набор данных дисбаланса в NER? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Гость

Как обрабатывать набор данных дисбаланса в NER?

Цитата

Сообщение Гость » 27 фев 2024, 18:31

Сейчас я извлекаю информацию с помощью NER. Моя область набора данных (в основном) связана с информатикой. Он содержит метку/тег: «TUJUAN», «METODE» и «TEMUAN». Проблема в том, что почти 80-90% данных помечены буквой O, что означает, что у них нет значимого тега. Точность и полнота модели равны 0, а точность составляет около 0,78. Я использую IndoBERT в качестве модели для задачи NER.

Я подозреваю, что это происходит потому, что мой набор данных крайне несбалансирован. Сначала я хочу изменить функцию потерь, основанную на документации BertForTokenClassification, на Dice Loss или Focal Loss, как упоминалось здесь, но я не знаю, как это сделать, поскольку мои знания Python все еще очень слабы.

класс BertForTokenClassification(BertPreTrainedModel): def __init__(self, config): супер().__init__(конфигурация) self.num_labels = config.num_labels self.bert = BertModel(config, add_pooling_layer=False) classifier_dropout = ( config.classifier_dropout, если config.classifier_dropout не равен None else config.hidden_dropout_prob ) self.dropout = nn.Dropout(classifier_dropout) self.classifier = nn.Linear(config.hidden_size, config.num_labels) # Инициализируем веса и применяем окончательную обработку self.post_init() @add_start_docsstrings_to_model_forward(BERT_INPUTS_DOCSTRING.format("размер_пакета, длина_последовательности")) @add_code_sample_docsstrings( контрольная точка = _CHECKPOINT_FOR_TOKEN_CLASSIFICATION, output_type = TokenClassifierOutput, config_class=_CONFIG_FOR_DOC, ожидаемый_выход=_TOKEN_CLASS_EXPECTED_OUTPUT, ожидаемая_потеря=_TOKEN_CLASS_EXPECTED_LOSS, ) вперед вперед( себя, input_ids: Необязательный[torch.Tensor] = Нет, Внимание_маска: Необязательный[torch.Tensor] = Нет, token_type_ids: Необязательный[torch.Tensor] = Нет, Position_ids: Необязательно[torch.Tensor] = Нет, head_mask: Необязательно[torch.Tensor] = Нет, inputs_embeds: Необязательный[torch.Tensor] = Нет, метки: Необязательный[torch.Tensor] = Нет, output_attentions: Необязательный[bool] = Нет, output_hidden_states: Необязательный[bool] = Нет, return_dict: Необязательный[bool] = Нет, ) -> Union[Tuple[torch.Tensor], TokenClassifierOutput]: р""" метки (`torch.LongTensor` формы `(batch_size, Sequence_length)`, *необязательно*): Метки для расчета потерь классификации токенов. Индексы должны находиться в `[0, ..., config.num_labels - 1]`. """ return_dict = return_dict, если return_dict не равен None else self.config.use_return_dict выходные данные = self.bert( входные_ид, внимание_маска = маска_внимания, token_type_ids=token_type_ids, Position_ids=position_ids, head_mask=head_mask, inputs_embeds = inputs_embeds, output_attentions=output_attentions, output_hidden_states=output_hidden_states, return_dict=return_dict, ) последовательность_выход = выходы [0] последовательность_выход = self.dropout(sequence_output) logits = self.classifier(sequence_output) потеря = нет если метки не None: loss_fct = CrossEntropyLoss() loss = loss_fct(logits.view(-1, self.num_labels), labels.view(-1)) если не return_dict: вывод = (логиты,) + выходы[2:] return ((loss,) + вывод), если потеря не равна Нету другого вывода вернуть TokenClassifierOutput( потеря = потеря, логиты = логиты, скрытые_состояния = выходные данные.скрытые_состояния, внимания = выходные данные. внимания, ) Мой полный код здесь

Могу ли я получить помощь, как справиться с набором данных о дисбалансе, исходя из моих проблем?

Реклама

1709047918

Гость


Сейчас я извлекаю информацию с помощью NER. Моя область набора данных (в основном) связана с информатикой. Он содержит метку/тег: «TUJUAN», «METODE» и «TEMUAN». Проблема в том, что почти 80-90% данных помечены буквой O, что означает, что у них нет значимого тега. Точность и полнота модели равны 0, а точность составляет около 0,78. Я использую IndoBERT в качестве модели для задачи NER.
 

[img]https://i.stack.imgur.com/ThRbD.png[/img]

 
Я подозреваю, что это происходит потому, что мой набор данных крайне несбалансирован. Сначала я хочу изменить функцию потерь, основанную на документации BertForTokenClassification, на Dice Loss или Focal Loss, как упоминалось здесь, но я не знаю, как это сделать, поскольку мои знания Python все еще очень слабы.
 
класс BertForTokenClassification(BertPreTrainedModel):     def __init__(self, config):         супер().__init__(конфигурация)         self.num_labels = config.num_labels         self.bert = BertModel(config, add_pooling_layer=False)         classifier_dropout = (             config.classifier_dropout, если config.classifier_dropout не равен None else config.hidden_dropout_prob         )         self.dropout = nn.Dropout(classifier_dropout)         self.classifier = nn.Linear(config.hidden_size, config.num_labels)         # Инициализируем веса и применяем окончательную обработку         self.post_init()     @add_start_docsstrings_to_model_forward(BERT_INPUTS_DOCSTRING.format("размер_пакета, длина_последовательности"))     @add_code_sample_docsstrings(         контрольная точка = _CHECKPOINT_FOR_TOKEN_CLASSIFICATION,         output_type = TokenClassifierOutput,         config_class=_CONFIG_FOR_DOC,         ожидаемый_выход=_TOKEN_CLASS_EXPECTED_OUTPUT,         ожидаемая_потеря=_TOKEN_CLASS_EXPECTED_LOSS,     )     вперед вперед(         себя,         input_ids: Необязательный[torch.Tensor] = Нет,         Внимание_маска: Необязательный[torch.Tensor] = Нет,         token_type_ids: Необязательный[torch.Tensor] = Нет,         Position_ids: Необязательно[torch.Tensor] = Нет,         head_mask: Необязательно[torch.Tensor] = Нет,         inputs_embeds: Необязательный[torch.Tensor] = Нет,         метки: Необязательный[torch.Tensor] = Нет,         output_attentions: Необязательный[bool] = Нет,         output_hidden_states: Необязательный[bool] = Нет,         return_dict: Необязательный[bool] = Нет,     ) -> Union[Tuple[torch.Tensor], TokenClassifierOutput]:         р"""         метки (`torch.LongTensor` формы `(batch_size, Sequence_length)`, *необязательно*):             Метки для расчета потерь классификации токенов. Индексы должны находиться в `[0, ..., config.num_labels - 1]`.         """         return_dict = return_dict, если return_dict не равен None else self.config.use_return_dict         выходные данные = self.bert(             входные_ид,             внимание_маска = маска_внимания,             token_type_ids=token_type_ids,             Position_ids=position_ids,             head_mask=head_mask,             inputs_embeds = inputs_embeds,             output_attentions=output_attentions,             output_hidden_states=output_hidden_states,             return_dict=return_dict,         )         последовательность_выход = выходы [0]         последовательность_выход = self.dropout(sequence_output)         logits = self.classifier(sequence_output)         потеря = нет         если метки не None:             loss_fct = CrossEntropyLoss()             loss = loss_fct(logits.view(-1, self.num_labels), labels.view(-1))         если не return_dict:             вывод = (логиты,) + выходы[2:]             return ((loss,) + вывод), если потеря не равна Нету другого вывода         вернуть TokenClassifierOutput(             потеря = потеря,             логиты = логиты,             скрытые_состояния = выходные данные.скрытые_состояния,             внимания = выходные данные. внимания,         )  Мой полный код здесь
 
Могу ли я получить помощь, как справиться с набором данных о дисбалансе, исходя из моих проблем?

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как обрабатывать набор данных дисбаланса в NER?

Последнее сообщение Anonymous « 02 мар 2024, 19:27
Добавлено в форуме Python

Anonymous » 02 мар 2024, 19:27 » в форуме Python

I'm now doing information extraction using NER. My dataset domain (mostly) in computer science. It contains label/tag: TUJUAN , METODE , and TEMUAN . The problem is almost 80-90% data are labeled O which means it has no meaningful tag. The precision...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
02 мар 2024, 19:27
Невозможно отправить цель watchOS в тестовый полет из-за дисбаланса бит-кода (неверный формат Mach-O)

Последнее сообщение Anonymous « 08 июл 2024, 11:05
Добавлено в форуме IOS

Anonymous » 08 июл 2024, 11:05 » в форуме IOS

Мне не удалось проверить мой проект xcode, который представляет собой комбинацию сопутствующего приложения для iOS и целевой ОС для часов. Я постоянно получаю эту ошибку ниже.
(
2024-07-07 14:51:40.402 *** Error: ERROR: Asset validation failed...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
08 июл 2024, 11:05
Многопользовательский префикс Trie со стратегией прохождения-решает проблемы дисбаланса?

Последнее сообщение Anonymous « 08 фев 2025, 22:50
Добавлено в форуме C++

Anonymous » 08 фев 2025, 22:50 » в форуме C++

Я пытаюсь многопоточно прочитать префикс Trie без замков или мутекс. В моем случае все строки имеют одинаковую длину, поэтому я подумал, что смогу справиться с работой. n потоков, каждый поток вставляет 1/N строки в Trie.
-После вставки его детали...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
08 фев 2025, 22:50
Многопользовательский префикс Trie со стратегией прохождения-решает проблемы дисбаланса?

Последнее сообщение Anonymous « 09 фев 2025, 02:15
Добавлено в форуме C++

Anonymous » 09 фев 2025, 02:15 » в форуме C++

Я пытаюсь многопоточно прочитать префикс Trie без замков или мутекс. В моем случае все строки имеют одинаковую длину, поэтому я подумал, что могу справедливо распределить работу.
Идея:

Если у нас есть n потоки, каждый поток вставляет 1/n строки...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
09 фев 2025, 02:15
Обработка сезонности и дисбаланса класса в бинарной классификации временных рядов

Последнее сообщение Anonymous « 07 июн 2025, 15:09
Добавлено в форуме Python

Anonymous » 07 июн 2025, 15:09 » в форуме Python

Я строю бинарный классификатор Pytorch, используя ~ 9 месяцев ежедневных данных. В положительной скорости чрезвычайно сильная сезонность, и у меня всего 9 месяцев, поэтому целый год обучающих данных, к сожалению, невозможна. /> различные размеры...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
07 июн 2025, 15:09

Вернуться в «Python»

Programmiererforum