Sentencepiece аварийно завершает работу при нормализации больших файлов.Python

Программы на Python
Ответить
Anonymous
 Sentencepiece аварийно завершает работу при нормализации больших файлов.

Сообщение Anonymous »

Я пытаюсь обучить свой токенизатор с помощью предложения:

Код: Выделить всё

import sentencepiece as spm
import re
import os
import tempfile

input_file = "E:/CII_perplexity/test.txt"
vocab_size = 300 #increase this for bigger files

spm.SentencePieceTrainer.train(
input=input_file,
input_format="text",
model_prefix='custom_tokenizer',
vocab_size=vocab_size,
character_coverage=0.9995,
input_sentence_size=100000000, # 0 means no limit
seed_sentencepiece_size=1000000, # for faster training
shuffle_input_sentence=True,
max_sentencepiece_length=8,
max_sentence_length=16768,
split_by_unicode_script = True,
split_by_whitespace = True,
split_by_number = True,
split_digits=True,
allow_whitespace_only_pieces=True,
byte_fallback=True,
normalization_rule_name="identity",
add_dummy_prefix=True,
remove_extra_whitespaces=False,
train_extremely_large_corpus=False,
unk_id = 0,
bos_id = 1,
eos_id = 2,
pad_id = 3,
unk_piece = "",
bos_piece = "",
eos_piece = "",
pad_piece = "
",
model_type='bpe'  # You can choose 'unigram', 'bpe', 'char', etc.
)
Когда я пытаюсь загрузить текстовый файл большего размера (я пробовал файл .txt размером 4 ГБ, но не знаю точного «предела»), на этапе нормализации происходит сбой:< /p>

Код: Выделить всё

...
trainer_interface.cc(425) LOG(INFO) Adding meta_piece: 
trainer_interface.cc(425) LOG(INFO) Adding meta_piece: 
trainer_interface.cc(425) LOG(INFO) Adding meta_piece: 
trainer_interface.cc(425) LOG(INFO) Adding meta_piece: 
trainer_interface.cc(425) LOG(INFO) Adding meta_piece: 
trainer_interface.cc(425) LOG(INFO) Adding meta_piece: 
trainer_interface.cc(430) LOG(INFO) Normalizing sentences...
Я также обнаружил, что об этом сообщалось как о проблеме GitHub, но она была закрыта без решения: https://github.com/google/sentencepiece/issues/770


Подробнее здесь: https://stackoverflow.com/questions/792 ... gger-files
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»