Проблема с использованием tokenizer.encode_plus

Проблема с использованием tokenizer.encode_plus ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Проблема с использованием tokenizer.encode_plus

Цитата

Сообщение Anonymous » 04 окт 2024, 06:11

Блокнот #jupyter
Я пытаюсь изучить классификатор BERT с помощью https://colab.research.google.com/drive ... db3pt8LuQВ этом коллабе, начиная с «Токенизировать все предложение..».
В этой части у меня возникла проблема: «TypeError: _tokenize() got» неожиданный аргумент ключевого слова 'pad_to_max_length'"
**
input_ids = []
attention_masks = []

for sent in sentences:
encoded_dict = tokenizer.encode_plus(
sent, # Sentence to encode.
add_special_tokens = True, # Add '[CLS]' and '[SEP]'
max_length = 64, # Pad & truncate all sentences.
pad_to_max_length = True,
return_attention_mask = True, # Construct attn. masks.
return_tensors = 'pt', # Return pytorch tensors.
)

Подробнее здесь: https://stackoverflow.com/questions/638 ... ncode-plus

1728011515

Anonymous

Блокнот #jupyter
Я пытаюсь изучить классификатор BERT с помощью https://colab.research.google.com/drive/1pTuQhug6Dhl9XalKB0zUGf4FIdYFlpcX#scrollTo=2bBdb3pt8LuQВ этом коллабе, начиная с «Токенизировать все предложение..».
В этой части у меня возникла проблема: «TypeError: _tokenize() got» неожиданный аргумент ключевого слова 'pad_to_max_length'"
**
input_ids = []
attention_masks = []

for sent in sentences:
encoded_dict = tokenizer.encode_plus(
sent,                      # Sentence to encode.
add_special_tokens = True, # Add '[CLS]' and '[SEP]'
max_length = 64,           # Pad & truncate all sentences.
pad_to_max_length = True,
return_attention_mask = True,   # Construct attn. masks.
return_tensors = 'pt',     # Return pytorch tensors.
)
 

Подробнее здесь: [url]https://stackoverflow.com/questions/63884856/trouble-with-using-tokenizer-encode-plus[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Я получил ошибку времени выполнения C Plus Plus для начинающих при написании простой программы [закрыто]

Последнее сообщение Anonymous « 19 апр 2024, 14:52
Добавлено в форуме C++

Anonymous » 19 апр 2024, 14:52 » в форуме C++

Я начинаю изучать cpp, и эта ошибка появляется каждый раз, когда я пытаюсь запустить свою программу... Пожалуйста, кто-нибудь, помогите мне:/введите здесь описание изображения
РЕДАКТИРОВАТЬ - I перепроверил программу и добавил точку с запятой после...

0 Ответы

96 Просмотры

Последнее сообщение Anonymous
19 апр 2024, 14:52
Проблема с использованием tokenizer.encode_plus

Последнее сообщение Anonymous « 01 фев 2025, 07:10
Добавлено в форуме Python

Anonymous » 01 фев 2025, 07:10 » в форуме Python

#jupyter Notebook
Я пытаюсь изучать классификатор Bert с помощью Br /> в этой колабах, начиная с «токенизации всего предложения .....»
В этой части у меня возникают проблемы »TypeError: _tokenize () Неожиданный аргумент ключевого слова...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
01 фев 2025, 07:10
Проблема с использованием tokenizer.encode_plus

Последнее сообщение Anonymous « 02 июн 2025, 00:08
Добавлено в форуме Python

Anonymous » 02 июн 2025, 00:08 » в форуме Python

#jupyter Notebook
Я пытаюсь изучать классификатор Bert с помощью in in in in in in in in in presmare in in in in in in in in in in in in in in in in in in in in in in in presmiteabize Все предложение .....
В этой части у меня возникает проблема...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
02 июн 2025, 00:08
Ошибка параллелизма Tokenizer при использовании gradio и mlflow

Последнее сообщение Anonymous « 03 июл 2024, 04:36
Добавлено в форуме Python

Anonymous » 03 июл 2024, 04:36 » в форуме Python

Я написал скрипт с использованием градиента и иногда (подчеркиваю - только иногда) при его запуске получаю
huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
03 июл 2024, 04:36
В чем разница между MWE Tokenizer и countvectorizer+ngram?

Последнее сообщение Anonymous « 03 июл 2024, 05:01
Добавлено в форуме Python

Anonymous » 03 июл 2024, 05:01 » в форуме Python

Просматривая документацию по ngrams и различным векторизаторам, я наткнулся на токенизатор многословных выражений (MWETokenizer), который находит фразы в тексте и преобразует их в один токен.
from nltk.tokenize import MWETokenizer

sents = in a...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
03 июл 2024, 05:01

Вернуться в «Python»