Несогласованный результат с токенизациейPython

Программы на Python
Ответить
Anonymous
 Несогласованный результат с токенизацией

Сообщение Anonymous »

Я создаю список биграмм из своих текстовых данных в Python. Я также хочу использовать знаки препинания в качестве токенов. Вот мой код:
def get_all_bigrams():
data = ""
with open("data.txt", "r") as dataset:
data = dataset.read()

puncs: list = find_all_punctuations(data)
print("".join(puncs)) # Output: `)*='[,-/:(&;]"!?.

data = data.split()
data = [str.lower(d) for d in data]
print("Before punctuation separation: ", len(data), "tokens")

# Separate punctuations into a separate string
separated_puncs = []
for d in data:
puncd = False
for p in puncs:
if p in d:
parted = d.partition(p)
if parted[0] != '':
separated_puncs.append(parted[0])
if parted[1] != '':
separated_puncs.append(parted[1])
if parted[2] != '':
separated_puncs.append(parted[2])
puncd = True
break
if not puncd:
separated_puncs.append(d)
print("After punctuation separation: ", len(separated_puncs), "tokens")

Вот мои противоречивые результаты:
# Iteration 1
Before punctuation separation: 992315 tokens
After punctuation separation: 1124139 tokens

# Iteration 2
Before punctuation separation: 992315 tokens
After punctuation separation: 1123467 tokens

# Iteration 3
Before punctuation separation: 992315 tokens
After punctuation separation: 1123831 tokens

Я немного покопался и сохранил результаты итерации в txt файлы, и я в замешательстве:
# 1.txt
54172 ta
54173 '
54174 kul,

# 2.txt
54172 ta'kul
54173 ,

Как я получил непостоянное количество токенов после разделения знаков препинания?
Я вспомнил, что читал что-то о списках Python, возвращающих случайный порядок каждый раз, когда выполняется скрипт. Так ли это здесь?
Вот определение функции find_all_punctuations, которая, как указал принятый ответчик, является источником несоответствия.
def find_all_punctuations(text):
all_punc = [char for char in text if char in string.punctuation]

unique_punc = list(set(all_punc))

return unique_punc
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»