Как преобразовать индексы символов в индексы токенов BERT

Как преобразовать индексы символов в индексы токенов BERT ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как преобразовать индексы символов в индексы токенов BERT

Цитата

Сообщение Anonymous » 09 ноя 2024, 18:15

Я работаю с набором данных вопросов-ответов UCLNLP/adversarial_qa.

Код: Выделить всё

from datasets import load_dataset
ds = load_dataset("UCLNLP/adversarial_qa", "adversarialQA")

Как сопоставить индексы ответов на основе символов с индексами на основе токенов после одновременной токенизации контекста и вопроса с помощью токенизатора, такого как BERT. Вот пример строки из моего набора данных:

Код: Выделить всё

d0 = ds['train'][0]
d0

{'id': '7ba1e8f4261d3170fcf42e84a81dd749116fae95',
'title': 'Brain',
'context': 'Another approach to brain function is to examine the consequences of damage to specific brain areas. Even though it is protected by the skull and meninges, surrounded by cerebrospinal fluid, and isolated from the bloodstream by the blood–brain barrier, the delicate nature of the brain makes it vulnerable to numerous diseases and several types of damage. In humans, the effects of strokes and other types of brain damage have been a key source of information about brain function. Because there is no ability to experimentally control the nature of the damage, however, this information is often difficult to interpret. In animal studies, most commonly involving rats, it is possible to use electrodes or locally injected chemicals to produce precise patterns of damage and then examine the consequences for behavior.',
'question': 'What sare the benifts of the blood brain barrir?',
'answers': {'text': ['isolated from the bloodstream'], 'answer_start': [195]},
'metadata': {'split': 'train', 'model_in_the_loop': 'Combined'}}

После токенизации индексы ответов равны 56 и 16:

Код: Выделить всё

from transformers import BertTokenizerFast
bert_tokenizer = BertTokenizerFast.from_pretrained('bert-large-uncased', return_token_type_ids=True)

bert_tokenizer.decode(bert_tokenizer.encode(d0['question'], d0['context'])[56:61])
'isolated from the bloodstream'

Я хочу создать новый набор данных с индексами токенов ответа, например, 56 и 61.
Это из учебного класса linkedin. Инструктор выполнил преобразование и создал файл CSV, но не поделился им или кодом для этого. Это ожидаемый результат:

Подробнее здесь: https://stackoverflow.com/questions/791 ... en-indices

1731165333

Anonymous

Я работаю с набором данных вопросов-ответов UCLNLP/adversarial_qa.
[code]from datasets import load_dataset
ds = load_dataset("UCLNLP/adversarial_qa", "adversarialQA")
[/code]
Как сопоставить индексы ответов на основе символов с индексами на основе токенов после одновременной токенизации контекста и вопроса с помощью токенизатора, такого как BERT. Вот пример строки из моего набора данных:
[code]d0 = ds['train'][0]
d0

{'id': '7ba1e8f4261d3170fcf42e84a81dd749116fae95',
'title': 'Brain',
'context': 'Another approach to brain function is to examine the consequences of damage to specific brain areas. Even though it is protected by the skull and meninges, surrounded by cerebrospinal fluid, and isolated from the bloodstream by the blood–brain barrier, the delicate nature of the brain makes it vulnerable to numerous diseases and several types of damage. In humans, the effects of strokes and other types of brain damage have been a key source of information about brain function. Because there is no ability to experimentally control the nature of the damage, however, this information is often difficult to interpret. In animal studies, most commonly involving rats, it is possible to use electrodes or locally injected chemicals to produce precise patterns of damage and then examine the consequences for behavior.',
'question': 'What sare the benifts of the blood brain barrir?',
'answers': {'text': ['isolated from the bloodstream'], 'answer_start': [195]},
'metadata': {'split': 'train', 'model_in_the_loop': 'Combined'}}
[/code]
После токенизации индексы ответов равны 56 и 16:
[code]from transformers import BertTokenizerFast
bert_tokenizer = BertTokenizerFast.from_pretrained('bert-large-uncased', return_token_type_ids=True)

bert_tokenizer.decode(bert_tokenizer.encode(d0['question'], d0['context'])[56:61])
'isolated from the bloodstream'
[/code]
Я хочу создать новый набор данных с индексами токенов ответа, например, 56 и 61.
Это из учебного класса linkedin. Инструктор выполнил преобразование и создал файл CSV, но не поделился им или кодом для этого. Это ожидаемый результат:
[img]https://i.sstatic.net/GsZ6mfcQ.png[/img]
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79173053/how-to-convert-character-indices-to-bert-token-indices[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как преобразовать индексы символов в индексы токенов BERT

Последнее сообщение Anonymous « 09 ноя 2024, 18:27
Добавлено в форуме Python

Anonymous » 09 ноя 2024, 18:27 » в форуме Python

Я работаю с набором данных вопросов-ответов UCLNLP/adversarial_qa.
from datasets import load_dataset
ds = load_dataset( UCLNLP/adversarial_qa , adversarialQA )

Как сопоставить индексы ответов на основе символов с индексами на основе токенов после...

0 Ответы

24 Просмотры

Последнее сообщение Anonymous
09 ноя 2024, 18:27
Как преобразовать индексы символов в индексы токенов BERT

Последнее сообщение Anonymous « 10 ноя 2024, 18:18
Добавлено в форуме Python

Anonymous » 10 ноя 2024, 18:18 » в форуме Python

Я работаю с набором данных вопросов-ответов UCLNLP/adversarial_qa.
from datasets import load_dataset
ds = load_dataset( UCLNLP/adversarial_qa , adversarialQA )

Как сопоставить индексы ответов на основе символов с индексами на основе токенов после...

0 Ответы

28 Просмотры

Последнее сообщение Anonymous
10 ноя 2024, 18:18
OutOfMemory при обучении предварительно обученной модели BERT для задачи классификации токенов

Последнее сообщение Anonymous « 25 окт 2024, 20:45
Добавлено в форуме Python

Anonymous » 25 окт 2024, 20:45 » в форуме Python

Я использую предварительно обученную BertForTokenClassification для задачи распознавания вложенных именованных объектов. Чтобы определить вложенные объекты, я использую метод нескольких меток. На выходе модель возвращает 3 списка логитов, по одному...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
25 окт 2024, 20:45
OutOfMemory при обучении предварительно обученной модели BERT для задачи классификации токенов

Последнее сообщение Anonymous « 26 окт 2024, 08:58
Добавлено в форуме Python

Anonymous » 26 окт 2024, 08:58 » в форуме Python

Я использую предварительно обученную BertForTokenClassification для задачи распознавания вложенных именованных объектов. Чтобы определить вложенные объекты, я использую метод нескольких меток. На выходе модель возвращает 3 списка логитов, по одному...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
26 окт 2024, 08:58
CohereAPIError: слишком много токенов: общее количество токенов в приглашении не может превышать 4081 — получено 15416

Последнее сообщение Anonymous « 25 май 2024, 19:52
Добавлено в форуме Python

Anonymous » 25 май 2024, 19:52 » в форуме Python

Я разработал приложение Streamlit, которое использует API Cohere для обработки естественного языка. Приложение позволяет пользователям задавать вопросы, которые затем обрабатываются с помощью Cohere API. Однако я столкнулся с проблемой, когда общее...

0 Ответы

80 Просмотры

Последнее сообщение Anonymous
25 май 2024, 19:52

Вернуться в «Python»