Модели Берта показывают статистику токенизации

Модели Берта показывают статистику токенизации ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Модели Берта показывают статистику токенизации

Цитата

Сообщение Anonymous » 09 ноя 2024, 01:46

Есть ли какой-либо встроенный способ запроса статистики токенизации при использовании BertTokenizer.from_pretrained('bert-base-uncased') и BertModel.from_pretrained('bert-base-uncased'), чтобы понять, насколько эффективно обрабатываются мои тексты обрабатывается?
Я использую тексты небольшого размера, но их длина колеблется от 4 до 250 символов, в зависимости от обучающего изображения. Тексты иногда могут содержать странные и непопулярные слова. Боюсь, что из-за таких условий процесс токенизации может оказаться не очень эффективным.
Я ищу способ проверки статистики токенизации при обработке всех моих текстовых изображений.
Я попробовал использовать этот код, который был создан на Github, но внутри него много ошибок, и он не очень словесный:
from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

texts = ["This is a sample text.", "Another text with some uncommon words."]

encoded_texts = tokenizer(texts, return_tensors='pt')

# Vocabulary Coverage
vocab_size = len(tokenizer.vocab)
total_tokens = sum([len(text) for text in encoded_texts['input_ids']])
oov_tokens = sum([1 for token in encoded_texts['input_ids'].flatten() if token not in tokenizer.vocab])
vocab_coverage = 1 - (oov_tokens / total_tokens)

# Average Token Length
token_lengths = [len(text) for text in encoded_texts['input_ids']]
average_token_length = sum(token_lengths) / len(token_lengths)

print(f"Vocabulary Coverage: {vocab_coverage:.2f}")
print(f"Average Token Length: {average_token_length:.2f}")

Подробнее здесь: https://stackoverflow.com/questions/791 ... statistics

1731105961

Anonymous

Есть ли какой-либо встроенный способ запроса статистики токенизации при использовании BertTokenizer.from_pretrained('bert-base-uncased') и BertModel.from_pretrained('bert-base-uncased'), чтобы понять, насколько эффективно обрабатываются мои тексты обрабатывается?
Я использую тексты небольшого размера, но их длина колеблется от 4 до 250 символов, в зависимости от обучающего изображения. Тексты иногда могут содержать странные и непопулярные слова. Боюсь, что из-за таких условий процесс токенизации может оказаться не очень эффективным.
Я ищу способ проверки статистики токенизации при обработке всех моих текстовых изображений.
Я попробовал использовать этот код, который был создан на Github, но внутри него много ошибок, и он не очень словесный:
from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

texts = ["This is a sample text.", "Another text with some uncommon words."]

encoded_texts = tokenizer(texts, return_tensors='pt')

# Vocabulary Coverage
vocab_size = len(tokenizer.vocab)
total_tokens = sum([len(text) for text in encoded_texts['input_ids']])
oov_tokens = sum([1 for token in encoded_texts['input_ids'].flatten() if token not in tokenizer.vocab])
vocab_coverage = 1 - (oov_tokens / total_tokens)

# Average Token Length
token_lengths = [len(text) for text in encoded_texts['input_ids']]
average_token_length = sum(token_lengths) / len(token_lengths)

print(f"Vocabulary Coverage: {vocab_coverage:.2f}")
print(f"Average Token Length: {average_token_length:.2f}")
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79171773/bert-models-show-tokenizing-statistics[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Сохраните обновленные веса/размеры для предварительно обученной модели Берта (думаю, я правильно спрашиваю)

Последнее сообщение Anonymous « 05 ноя 2024, 01:53
Добавлено в форуме Python

Anonymous » 05 ноя 2024, 01:53 » в форуме Python

Я новичок в машинном обучении, поэтому прошу прощения, если это не совсем понятно, но я постараюсь быть максимально кратким.
Я настраиваю предварительно обученную модель BERT, в частности «без оболочки на основе bert», и частью этого было обновление...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
05 ноя 2024, 01:53
Ранняя остановка в инстансах Берта Трейнера

Последнее сообщение Anonymous « 23 ноя 2024, 10:25
Добавлено в форуме Python

Anonymous » 23 ноя 2024, 10:25 » в форуме Python

Я настраиваю модель BERT для задачи многоклассовой классификации. Моя проблема в том, что я не знаю, как добавить «раннюю остановку» к этим экземплярам Trainer. Есть идеи?

Подробнее здесь:

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
23 ноя 2024, 10:25
Модель Берта разделяет слова самостоятельно

Последнее сообщение Anonymous « 17 дек 2024, 13:04
Добавлено в форуме Python

Anonymous » 17 дек 2024, 13:04 » в форуме Python

Я маркирую входные слова, используя модель Берта.
Код:
tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased',do_lower_case = False)
model = BertModel.from_pretrained( bert-base-multilingual-cased , add_pooling_layer=False,...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
17 дек 2024, 13:04
Модель Берта не учится с использованием JAX. Результаты не меняются

Последнее сообщение Anonymous « 24 янв 2025, 11:33
Добавлено в форуме Python

Anonymous » 24 янв 2025, 11:33 » в форуме Python

Я обучаю модель BERT классификации спама с использованием JAX на TPU. Моя модель не обучалась, и ее результаты не изменились.
Epoch 0: Train Loss = 2.7961559295654297: Train Accuracy: 0.30608975887298584 Eval Loss = 3.6600053310394287: Eval...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
24 янв 2025, 11:33
Удаление биграмм после токенизации для TfidfVectorizer

Последнее сообщение Anonymous « 05 авг 2024, 22:46
Добавлено в форуме Python

Anonymous » 05 авг 2024, 22:46 » в форуме Python

Я пытаюсь удалить биграммы, созданные TfidfVectorizer. Я использую text.TfidfVectorizer, чтобы использовать свою собственную функцию препроцессора.
Init >

from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS as stop_words
from...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
05 авг 2024, 22:46

Вернуться в «Python»