Используйте очередь приоритетов для выполнения иерархической кластеризации без импорта кучиq

Используйте очередь приоритетов для выполнения иерархической кластеризации без импорта кучиq ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Используйте очередь приоритетов для выполнения иерархической кластеризации без импорта кучиq

Цитата

Сообщение Anonymous » 30 ноя 2024, 18:15

Я использую очередь приоритетов для иерархической кластеризации (не могу импортировать heapq) и хочу использовать метод полной ссылки, но я не знаю, в чем проблема моего кода, причина далеко не в чем Я ожидал... кстати, данные, которые я использую для кластеризации, — это 1095 документов, которые хранятся в папке данных.

Код: Выделить всё

from nltk.stem.porter import PorterStemmer
import os
import numpy as np

porter_stemmer = PorterStemmer()

script_dir = os.path.dirname(__file__)
txt_folder_path = os.path.join(script_dir, 'data')
output_folder = os.path.join(script_dir, 'output')
sw_path = os.path.join(script_dir, 'stopwords.txt')
docfreq = {}

with open(sw_path, 'r') as sw:
stopwords = set(sw.read().splitlines())

txt_files = [f for f in os.listdir(txt_folder_path) if f.endswith('.txt')]
N = len(txt_files)

for filename in txt_files:
file_path = os.path.join(txt_folder_path, filename)

with open(file_path, 'r') as f:
data = f.read().lower()

adjusted = [word for word in data.split() if word.isalpha() and not any(char.isdigit() for char in word)]
text = " ".join(adjusted).split()
filtered_sentence = [w for w in text if w not in stopwords]
stemming = [porter_stemmer.stem(w) for w in filtered_sentence]
termfreq = {}
totalword = len(stemming)
unique_words_in_doc = set(stemming)

for word in unique_words_in_doc:
docfreq[word] = docfreq.get(word, 0) + 1

for word in stemming:
termfreq[word] = termfreq.get(word, 0) + 1
for word in termfreq:
termfreq[word] /= totalword

termfreq_file_path = os.path.join(output_folder, filename)
with open(termfreq_file_path, 'w', encoding='utf-8') as termfreq_file:
termfreq_file.write(f"{'term':

Подробнее здесь: [url]https://stackoverflow.com/questions/79239842/use-a-priority-queue-to-do-hierarchical-clustering-without-import-heapq[/url]

1732979729

Anonymous

Я использую очередь приоритетов для иерархической кластеризации (не могу импортировать heapq) и хочу использовать метод полной ссылки, но я не знаю, в чем проблема моего кода, причина далеко не в чем Я ожидал...  кстати, данные, которые я использую для кластеризации, — это 1095 документов, которые хранятся в папке данных.
[code]from nltk.stem.porter import PorterStemmer
import os
import numpy as np

porter_stemmer = PorterStemmer()

script_dir = os.path.dirname(__file__)
txt_folder_path = os.path.join(script_dir, 'data')
output_folder = os.path.join(script_dir, 'output')
sw_path = os.path.join(script_dir, 'stopwords.txt')
docfreq = {}

with open(sw_path, 'r') as sw:
stopwords = set(sw.read().splitlines())

txt_files = [f for f in os.listdir(txt_folder_path) if f.endswith('.txt')]
N = len(txt_files)

for filename in txt_files:
file_path = os.path.join(txt_folder_path, filename)

with open(file_path, 'r') as f:
data = f.read().lower()

adjusted = [word for word in data.split() if word.isalpha() and not any(char.isdigit() for char in word)]
text = " ".join(adjusted).split()
filtered_sentence = [w for w in text if w not in stopwords]
stemming = [porter_stemmer.stem(w) for w in filtered_sentence]
termfreq = {}
totalword = len(stemming)
unique_words_in_doc = set(stemming)

for word in unique_words_in_doc:
docfreq[word] = docfreq.get(word, 0) + 1

for word in stemming:
termfreq[word] = termfreq.get(word, 0) + 1
for word in termfreq:
termfreq[word] /= totalword

termfreq_file_path = os.path.join(output_folder, filename)
with open(termfreq_file_path, 'w', encoding='utf-8') as termfreq_file:
termfreq_file.write(f"{'term':

Подробнее здесь: [url]https://stackoverflow.com/questions/79239842/use-a-priority-queue-to-do-hierarchical-clustering-without-import-heapq[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Дендрограмма иерархической кластеризации с использованием Python

Последнее сообщение Anonymous « 12 дек 2024, 22:53
Добавлено в форуме Python

Anonymous » 12 дек 2024, 22:53 » в форуме Python

Теория графов и интеллектуальный анализ данных — две области информатики, в которых я пока новичок, поэтому извините за мои базовые знания.

Меня попросили построить дендрограмму иерархически кластеризованного графа.
Вводные данные, которые мне были...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
12 дек 2024, 22:53
Ограниченная кластеризация: обеспечение соблюдения минимального размера кластера в иерархической кластеризации

Последнее сообщение Anonymous « 19 фев 2025, 10:12
Добавлено в форуме Python

Anonymous » 19 фев 2025, 10:12 » в форуме Python

У меня есть 1000x1000 Jensen-Shannon (JS) Матрица , представляющая парные расстояния между 1000 генов . Я хочу объединить эти гены , используя иерархическую кластеризацию со средней связью . Тем не менее, я сталкиваюсь с проблемой, в которой...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
19 фев 2025, 10:12
Как текущая очередь, очередь отправки и целевая очередь взаимодействуют друг с другом в GCD?

Последнее сообщение Anonymous « 11 апр 2024, 09:15
Добавлено в форуме IOS

Anonymous » 11 апр 2024, 09:15 » в форуме IOS

Я следил за блогами, онлайн-статьями, видео для GCD и наткнулся на очередь целевых терминов (в некоторых блогах). Я думал, что понял GCD, но потом эта терминология целевой очереди меня очень смутила.

Я понял следующее:

Например:

viewdidload(){...

0 Ответы

103 Просмотры

Последнее сообщение Anonymous
11 апр 2024, 09:15
Как использовать очередь приоритетов с Spring Boot AsyncConfigurer

Последнее сообщение Гость « 03 мар 2024, 10:13
Добавлено в форуме JAVA

Гость » 03 мар 2024, 10:13 » в форуме JAVA

I have a application where I have multiple threads reading messages from a jms destination. The listener thread reads the message, makes some changes to it and calls several other methods of different classes. These methods are annotated with @Async...

0 Ответы

26 Просмотры

Последнее сообщение Гость
03 мар 2024, 10:13
Сравнение скорости Haskell, Python (куча // очередь приоритетов)

Последнее сообщение Anonymous « 26 окт 2024, 17:53
Добавлено в форуме Python

Anonymous » 26 окт 2024, 17:53 » в форуме Python

Мне нужно решить проблему. Детали этого в принципе не имеют значения, и у меня есть два подходящих решения: на Python и Haskell.
Код Python:
import heapq

_, volume, *ppl = map(int, open( input.txt ).read().split())
ppl =
heapq.heapify(ppl)
for i...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
26 окт 2024, 17:53

Вернуться в «Python»