Используйте очередь приоритетов для выполнения иерархической кластеризации без импорта кучиqPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Используйте очередь приоритетов для выполнения иерархической кластеризации без импорта кучиq

Сообщение Anonymous »

Я использую очередь приоритетов для иерархической кластеризации (не могу импортировать heapq) и хочу использовать метод полной ссылки, но я не знаю, в чем проблема моего кода, причина далеко не в чем Я ожидал... кстати, данные, которые я использую для кластеризации, — это 1095 документов, которые хранятся в папке данных.

Код: Выделить всё

from nltk.stem.porter import PorterStemmer
import os
import numpy as np

porter_stemmer = PorterStemmer()

script_dir = os.path.dirname(__file__)
txt_folder_path = os.path.join(script_dir, 'data')
output_folder = os.path.join(script_dir, 'output')
sw_path = os.path.join(script_dir, 'stopwords.txt')
docfreq = {}

with open(sw_path, 'r') as sw:
stopwords = set(sw.read().splitlines())

txt_files = [f for f in os.listdir(txt_folder_path) if f.endswith('.txt')]
N = len(txt_files)

for filename in txt_files:
file_path = os.path.join(txt_folder_path, filename)

with open(file_path, 'r') as f:
data = f.read().lower()

adjusted = [word for word in data.split() if word.isalpha() and not any(char.isdigit() for char in word)]
text = " ".join(adjusted).split()
filtered_sentence = [w for w in text if w not in stopwords]
stemming = [porter_stemmer.stem(w) for w in filtered_sentence]
termfreq = {}
totalword = len(stemming)
unique_words_in_doc = set(stemming)

for word in unique_words_in_doc:
docfreq[word] = docfreq.get(word, 0) + 1

for word in stemming:
termfreq[word] = termfreq.get(word, 0) + 1
for word in termfreq:
termfreq[word] /= totalword

termfreq_file_path = os.path.join(output_folder, filename)
with open(termfreq_file_path, 'w', encoding='utf-8') as termfreq_file:
termfreq_file.write(f"{'term':

Подробнее здесь: [url]https://stackoverflow.com/questions/79239842/use-a-priority-queue-to-do-hierarchical-clustering-without-import-heapq[/url]
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»