Используя K-Means для кластеризации документов, должна ли кластеризация осуществляться по косинусному сходству или по ве

Используя K-Means для кластеризации документов, должна ли кластеризация осуществляться по косинусному сходству или по ве ⇐ Php

1 сообщение • Страница 1 из 1

Anonymous

Используя K-Means для кластеризации документов, должна ли кластеризация осуществляться по косинусному сходству или по ве

Цитата

Сообщение Anonymous » 05 ноя 2024, 23:15

Извиняюсь, если ответ на этот вопрос очевиден, пожалуйста, будьте добры, я здесь впервые

Я был бы благодарен, если бы кто-нибудь подсказал мне, как это сделать. соответствующая структура входных данных для k-средних. Я работаю над магистерской диссертацией, в которой предлагаю новый подход к взвешиванию терминов TF-IDF, специфичный для моей области. Я хочу использовать k-средние для кластеризации результатов, а затем применить ряд внутренних и внешних критериев оценки, чтобы увидеть, имеет ли мой новый метод взвешивания терминов какую-либо ценность.
Мои шаги на данный момент все работают (реализовано на PHP):

Шаг 1. Прочтите коллекцию документов
< li>Шаг 2: Очистка коллекции документов, извлечение признаков, выбор признаков
Шаг 3: Частота терминов (TF)
Шаг 4: Обратная частота документов (IDF)
Шаг 5: TF * IDF
Шаг 6: Нормализовать TF-IDF к векторам фиксированной длины

Шаги 7 и 8 — это то, где мне нужны некоторые рекомендации:
Шаг 7: векторная пространственная модель – косинусное подобие< /p>
Единственные примеры, которые я могу найти, — это сравнение входного запроса с каждым документом и поиск сходства. Если нет входного запроса (это не система поиска информации), сравниваю ли я каждый отдельный документ в корпусе с каждым другим документом в корпусе (каждой парой документов)? Я не могу найти ни одного примера косинусного сходства, примененного к полной коллекции документов, а не к одному примеру/запросу по сравнению с коллекцией.
Шаг 8: K-средние
Я изо всех сил пытаюсь понять, должен ли входной вектор для k-средних содержать матрицу оценки косинусного сходства каждого документа в коллекции по сравнению с каждым другим документом (матрица косинусного сходства ). Или предполагается, что k-средние применяются к векторной модели термина? Если это последнее, то каждый пример k-средних, который я могу найти, довольно прост и отображает либо единичные термины. Как мне справиться с тем фактом, что в моей коллекции документов есть несколько терминов и т. д.?
Косинусное сходство и K-средние подразумеваются как решение для кластеризации документов в таком большом количестве примеров, поэтому я их пропускаю. что-то очень очевидное.

Подробнее здесь: https://stackoverflow.com/questions/301 ... similarity

1730837740

Anonymous

Извиняюсь, если ответ на этот вопрос очевиден, пожалуйста, будьте добры, я здесь впервые :-)
Я был бы благодарен, если бы кто-нибудь подсказал мне, как это сделать. соответствующая структура входных данных для k-средних. Я работаю над магистерской диссертацией, в которой предлагаю новый подход к взвешиванию терминов TF-IDF, специфичный для моей области. Я хочу использовать k-средние для кластеризации результатов, а затем применить ряд внутренних и внешних критериев оценки, чтобы увидеть, имеет ли мой новый метод взвешивания терминов какую-либо ценность.
Мои шаги на данный момент все работают (реализовано на PHP):
[list]
[*]Шаг 1. Прочтите коллекцию документов
< li>Шаг 2: Очистка коллекции документов, извлечение признаков, выбор признаков
[*]Шаг 3: Частота терминов (TF)
[*]Шаг 4: Обратная частота документов (IDF)
[*]Шаг 5: TF * IDF
[*]Шаг 6: Нормализовать TF-IDF к векторам фиксированной длины
[/list]
Шаги 7 и 8 — это то, где мне нужны некоторые рекомендации:
[b]Шаг 7: векторная пространственная модель – косинусное подобие[/b]< /p>
Единственные примеры, которые я могу найти, — это сравнение входного запроса с каждым документом и поиск сходства. Если нет входного запроса (это не система поиска информации), сравниваю ли я каждый отдельный документ в корпусе с каждым другим документом в корпусе (каждой парой документов)? Я не могу найти ни одного примера косинусного сходства, примененного к полной коллекции документов, а не к одному примеру/запросу по сравнению с коллекцией.
[b]Шаг 8: K-средние[/b] 
Я изо всех сил пытаюсь понять, должен ли входной вектор для k-средних содержать матрицу оценки косинусного сходства каждого документа в коллекции по сравнению с каждым другим документом (матрица косинусного сходства ). Или предполагается, что k-средние применяются к векторной модели термина? Если это последнее, то каждый пример k-средних, который я могу найти, довольно прост и отображает либо единичные термины. Как мне справиться с тем фактом, что в моей коллекции документов есть несколько терминов и т. д.?
Косинусное сходство и K-средние подразумеваются как решение для кластеризации документов в таком большом количестве примеров, поэтому я их пропускаю. что-то очень очевидное. 

Подробнее здесь: [url]https://stackoverflow.com/questions/30168166/using-k-means-for-document-clustering-should-clustering-be-on-cosine-similarity[/url]