
Я был бы благодарен, если бы кто-нибудь подсказал мне, как это сделать. соответствующая структура входных данных для k-средних. Я работаю над магистерской диссертацией, в которой предлагаю новый подход к взвешиванию терминов TF-IDF, специфичный для моей области. Я хочу использовать k-средние для кластеризации результатов, а затем применить ряд внутренних и внешних критериев оценки, чтобы увидеть, имеет ли мой новый метод взвешивания терминов какую-либо ценность.
Мои шаги на данный момент все работают (реализовано на PHP):
- Шаг 1. Прочтите коллекцию документов
< li>Шаг 2: Очистка коллекции документов, извлечение признаков, выбор признаков - Шаг 3: Частота терминов (TF)
- Шаг 4: Обратная частота документов (IDF)
- Шаг 5: TF * IDF
- Шаг 6: Нормализовать TF-IDF к векторам фиксированной длины
Шаг 7: векторная пространственная модель – косинусное подобие< /p>
Единственные примеры, которые я могу найти, — это сравнение входного запроса с каждым документом и поиск сходства. Если нет входного запроса (это не система поиска информации), сравниваю ли я каждый отдельный документ в корпусе с каждым другим документом в корпусе (каждой парой документов)? Я не могу найти ни одного примера косинусного сходства, примененного к полной коллекции документов, а не к одному примеру/запросу по сравнению с коллекцией.
Шаг 8: K-средние
Я изо всех сил пытаюсь понять, должен ли входной вектор для k-средних содержать матрицу оценки косинусного сходства каждого документа в коллекции по сравнению с каждым другим документом (матрица косинусного сходства ). Или предполагается, что k-средние применяются к векторной модели термина? Если это последнее, то каждый пример k-средних, который я могу найти, довольно прост и отображает либо единичные термины. Как мне справиться с тем фактом, что в моей коллекции документов есть несколько терминов и т. д.?
Косинусное сходство и K-средние подразумеваются как решение для кластеризации документов в таком большом количестве примеров, поэтому я их пропускаю. что-то очень очевидное.
Подробнее здесь: https://stackoverflow.com/questions/301 ... similarity