import sentencepiece as spm
import re
import os
import tempfile
input_file = "E:/CII_perplexity/test.txt"
vocab_size = 300 #increase this for bigger files
spm.SentencePieceTrainer.train(
input=input_file,
input_format="text",
model_prefix='custom_tokenizer',
vocab_size=vocab_size,
character_coverage=0.9995,
input_sentence_size=100000000, # 0 means no limit
seed_sentencepiece_size=1000000, # for faster training
shuffle_input_sentence=True,
max_sentencepiece_length=8,
max_sentence_length=16768,
split_by_unicode_script = True,
split_by_whitespace = True,
split_by_number = True,
split_digits=True,
allow_whitespace_only_pieces=True,
byte_fallback=True,
normalization_rule_name="identity",
add_dummy_prefix=True,
remove_extra_whitespaces=False,
train_extremely_large_corpus=False,
unk_id = 0,
bos_id = 1,
eos_id = 2,
pad_id = 3,
unk_piece = "",
bos_piece = "",
eos_piece = "",
pad_piece = "
",
model_type='bpe' # You can choose 'unigram', 'bpe', 'char', etc.
)
Когда я пытаюсь загрузить текстовый файл большего размера (я пробовал файл .txt размером 4 ГБ, но не знаю точного «предела»), на этапе нормализации происходит сбой:< /p>