Pierre/NNP
Vinken/NNP
,/,
61/CD
лет/NNS
стар /JJ
,/,
будет/MD
присоединится к/VB
к/DT
правлению/NN
как/IN
a/DT
неисполнительный/JJ
директор/NN
ноябрь/NNP
29/CD
./.
...
Моя задача чтобы создать файл со следующим выводом:
Мортимер 1 NNP 1
фол 1 JJ 1
сообщили 16 ВБН 7 ВБД 9
до 26 RB 6 IN 20
разрешить 4 VB 2 VBP 2
Первый столбец — это слово, второй — сколько раз слово встречается во всем документе , а затем как часто оно было помечено каким POS-тегом.
Получить общее количество слов не проблема:
Код: Выделить всё
with open(input_filename, "r") as f:
for line in f:
try:
word, pos = line.rsplit('/', 1)
wordcounts[word] = wordcounts.get(word, 0) + 1
except ValueError:
pass
Подробнее здесь: https://stackoverflow.com/questions/793 ... e-document
Мобильная версия