Разница между Split() и tokenize()Python

Программы на Python
Ответить
Anonymous
 Разница между Split() и tokenize()

Сообщение Anonymous »

Я подсчитываю количество уникальных слов в загруженном текстовом файле. Однако я понял, что когда я использую Split() и tensorflow_datasets tokenize(), я получаю разные результаты, но думал, что они достигают одного и того же. Вот мой код. Может кто-нибудь помочь мне понять разницу между ними.

import tensorflow as tf
import tensorflow_datasets as tfds

tf.enable_eager_execution()

BUFFER_SIZE = 50000
TAKE_SIZE = 5000
BATCH_SIZE = 64

tokenizer = tfds.features.text.Tokenizer()
data = open("news.2011.en.shuffled","r").read()
vocab = list(set(data.split())) # gives more count
print(len(vocab))

tokenized_data = tokenizer.tokenize(data)
print(len(set(tokenized_data))) # gives less count


Подробнее здесь: https://stackoverflow.com/questions/584 ... d-tokenize
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»