Нужно несколько счетов из одного документа

Нужно несколько счетов из одного документа ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Нужно несколько счетов из одного документа

Цитата

Сообщение Anonymous » 07 янв 2025, 18:09

У меня есть текстовый файл со словами и тегами частей речи:
Pierre/NNP
Vinken/NNP
,/,
61/CD
лет/NNS
стар /JJ
,/,
будет/MD
присоединится к/VB
к/DT
правлению/NN
как/IN
a/DT
неисполнительный/JJ
директор/NN
ноябрь/NNP
29/CD
./.
...
Моя задача чтобы создать файл со следующим выводом:
Мортимер 1 NNP 1
фол 1 JJ 1
сообщили 16 ВБН 7 ВБД 9
до 26 RB 6 IN 20
разрешить 4 VB 2 VBP 2
Первый столбец — это слово, второй — сколько раз слово встречается во всем документе , а затем как часто оно было помечено каким POS-тегом.
Получить общее количество слов не проблема:

Код: Выделить всё

with open(input_filename, "r") as f:
for line in f:
try:
word, pos = line.rsplit('/', 1)
wordcounts[word] = wordcounts.get(word, 0) + 1
except ValueError:
pass

Исключение ValueError необходимо, чтобы избежать пустых строк во входном документе. Однако у меня возникли проблемы с поиском подходящей структуры данных для хранения счетчиков POS-тегов, чтобы я мог записать ее в выходной файл. Как бы вы это сделали?

Подробнее здесь: https://stackoverflow.com/questions/793 ... e-document

1736262565

Anonymous

У меня есть текстовый файл со словами и тегами частей речи:
Pierre/NNP
Vinken/NNP
,/,
61/CD
лет/NNS
стар /JJ
,/,
будет/MD
присоединится к/VB
к/DT
правлению/NN 
как/IN
a/DT
неисполнительный/JJ
директор/NN
ноябрь/NNP
29/CD
./.
...
Моя задача чтобы создать файл со следующим выводом:
Мортимер 1 NNP 1
фол 1 JJ 1
сообщили 16 ВБН 7 ВБД 9
до 26 RB 6 IN 20
разрешить 4 VB 2 VBP 2
Первый столбец — это слово, второй — сколько раз слово встречается во всем документе , а затем как часто оно было помечено каким POS-тегом.
Получить общее количество слов не проблема:
[code]with open(input_filename, "r") as f:
for line in f:
try:
word, pos = line.rsplit('/', 1)
wordcounts[word] = wordcounts.get(word, 0) + 1
except ValueError:
pass
[/code]
Исключение ValueError необходимо, чтобы избежать пустых строк во входном документе. Однако у меня возникли проблемы с поиском подходящей структуры данных для хранения счетчиков POS-тегов, чтобы я мог записать ее в выходной файл. Как бы вы это сделали? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79336367/need-several-counts-from-one-document[/url]