Sentencepiece аварийно завершает работу при нормализации больших файлов.

Sentencepiece аварийно завершает работу при нормализации больших файлов. ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Sentencepiece аварийно завершает работу при нормализации больших файлов.

Цитата

Сообщение Anonymous » 04 дек 2024, 03:57

Я пытаюсь обучить свой токенизатор с помощью предложения:

Код: Выделить всё

import sentencepiece as spm
import re
import os
import tempfile

input_file = "E:/CII_perplexity/test.txt"
vocab_size = 300 #increase this for bigger files

spm.SentencePieceTrainer.train(
input=input_file,
input_format="text",
model_prefix='custom_tokenizer',
vocab_size=vocab_size,
character_coverage=0.9995,
input_sentence_size=100000000, # 0 means no limit
seed_sentencepiece_size=1000000, # for faster training
shuffle_input_sentence=True,
max_sentencepiece_length=8,
max_sentence_length=16768,
split_by_unicode_script = True,
split_by_whitespace = True,
split_by_number = True,
split_digits=True,
allow_whitespace_only_pieces=True,
byte_fallback=True,
normalization_rule_name="identity",
add_dummy_prefix=True,
remove_extra_whitespaces=False,
train_extremely_large_corpus=False,
unk_id = 0,
bos_id = 1,
eos_id = 2,
pad_id = 3,
unk_piece = "",
bos_piece = "",
eos_piece = "",
pad_piece = "
",
model_type='bpe'  # You can choose 'unigram', 'bpe', 'char', etc.
)

Когда я пытаюсь загрузить текстовый файл большего размера (я пробовал файл .txt размером 4 ГБ, но не знаю точного «предела»), на этапе нормализации происходит сбой:< /p>

Код: Выделить всё

...
trainer_interface.cc(425) LOG(INFO) Adding meta_piece: 
trainer_interface.cc(425) LOG(INFO) Adding meta_piece: 
trainer_interface.cc(425) LOG(INFO) Adding meta_piece: 
trainer_interface.cc(425) LOG(INFO) Adding meta_piece: 
trainer_interface.cc(425) LOG(INFO) Adding meta_piece: 
trainer_interface.cc(425) LOG(INFO) Adding meta_piece: 
trainer_interface.cc(430) LOG(INFO) Normalizing sentences...

Я также обнаружил, что об этом сообщалось как о проблеме GitHub, но она была закрыта без решения: https://github.com/google/sentencepiece/issues/770

Подробнее здесь: https://stackoverflow.com/questions/792 ... gger-files

1733273854

Anonymous

Я пытаюсь обучить свой токенизатор с помощью предложения:
[code]import sentencepiece as spm
import re
import os
import tempfile

input_file = "E:/CII_perplexity/test.txt"
vocab_size = 300 #increase this for bigger files

spm.SentencePieceTrainer.train(
input=input_file,
input_format="text",
model_prefix='custom_tokenizer',
vocab_size=vocab_size,
character_coverage=0.9995,
input_sentence_size=100000000, # 0 means no limit
seed_sentencepiece_size=1000000, # for faster training
shuffle_input_sentence=True,
max_sentencepiece_length=8,
max_sentence_length=16768,
split_by_unicode_script = True,
split_by_whitespace = True,
split_by_number = True,
split_digits=True,
allow_whitespace_only_pieces=True,
byte_fallback=True,
normalization_rule_name="identity",
add_dummy_prefix=True,
remove_extra_whitespaces=False,
train_extremely_large_corpus=False,
unk_id = 0,
bos_id = 1,
eos_id = 2,
pad_id = 3,
unk_piece = "",
bos_piece = "",
eos_piece = "",
pad_piece = "
",
model_type='bpe'  # You can choose 'unigram', 'bpe', 'char', etc.
)
[/code]
Когда я пытаюсь загрузить текстовый файл большего размера (я пробовал файл .txt размером 4 ГБ, но не знаю точного «предела»), на этапе нормализации происходит сбой:< /p>
[code]...
trainer_interface.cc(425) LOG(INFO) Adding meta_piece: 
trainer_interface.cc(425) LOG(INFO) Adding meta_piece: 
trainer_interface.cc(425) LOG(INFO) Adding meta_piece: 
trainer_interface.cc(425) LOG(INFO) Adding meta_piece: 
trainer_interface.cc(425) LOG(INFO) Adding meta_piece: 
trainer_interface.cc(425) LOG(INFO) Adding meta_piece: 
trainer_interface.cc(430) LOG(INFO) Normalizing sentences...
[/code]
Я также обнаружил, что об этом сообщалось как о проблеме GitHub, но она была закрыта без решения: https://github.com/google/sentencepiece/issues/770
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79249602/sentencepiece-crashes-during-normalization-of-bigger-files[/url]