Разница между Split() и tokenize() - Цифровое Кемерово

Разница между Split() и tokenize() ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Цитата

Сообщение Anonymous » 22 янв 2026, 11:41

Я подсчитываю количество уникальных слов в загруженном текстовом файле. Однако я понял, что когда я использую Split() и tensorflow_datasets tokenize(), я получаю разные результаты, но думал, что они достигают одного и того же. Вот мой код. Может кто-нибудь помочь мне понять разницу между ними.

import tensorflow as tf
import tensorflow_datasets as tfds

tf.enable_eager_execution()

BUFFER_SIZE = 50000
TAKE_SIZE = 5000
BATCH_SIZE = 64

tokenizer = tfds.features.text.Tokenizer()
data = open("news.2011.en.shuffled","r").read()
vocab = list(set(data.split())) # gives more count
print(len(vocab))

tokenized_data = tokenizer.tokenize(data)
print(len(set(tokenized_data))) # gives less count

Подробнее здесь: https://stackoverflow.com/questions/584 ... d-tokenize

1769071296

Anonymous

Я подсчитываю количество уникальных слов в загруженном текстовом файле. Однако я понял, что когда я использую Split() и tensorflow_datasets tokenize(), я получаю разные результаты, но думал, что они достигают одного и того же. Вот мой код. Может кто-нибудь помочь мне понять разницу между ними.

import tensorflow as tf
import tensorflow_datasets as tfds

tf.enable_eager_execution()

BUFFER_SIZE = 50000
TAKE_SIZE = 5000
BATCH_SIZE = 64

tokenizer = tfds.features.text.Tokenizer()
data = open("news.2011.en.shuffled","r").read()
vocab = list(set(data.split()))  # gives more count
print(len(vocab))

tokenized_data = tokenizer.tokenize(data)
print(len(set(tokenized_data)))  # gives less count
 

Подробнее здесь: [url]https://stackoverflow.com/questions/58474438/difference-between-split-and-tokenize[/url]