Используя K-Means для кластеризации документов, должна ли кластеризация осуществляться по косинусному сходству или по веPhp

Кемеровские программисты php общаются здесь
Ответить Пред. темаСлед. тема
Anonymous
 Используя K-Means для кластеризации документов, должна ли кластеризация осуществляться по косинусному сходству или по ве

Сообщение Anonymous »

Извиняюсь, если ответ на этот вопрос очевиден, пожалуйста, будьте добры, я здесь впервые :-)
Я был бы благодарен, если бы кто-нибудь подсказал мне, как это сделать. соответствующая структура входных данных для k-средних. Я работаю над магистерской диссертацией, в которой предлагаю новый подход к взвешиванию терминов TF-IDF, специфичный для моей области. Я хочу использовать k-средние для кластеризации результатов, а затем применить ряд внутренних и внешних критериев оценки, чтобы увидеть, имеет ли мой новый метод взвешивания терминов какую-либо ценность.
Мои шаги на данный момент все работают (реализовано на PHP):
  • Шаг 1. Прочтите коллекцию документов
    < li>Шаг 2: Очистка коллекции документов, извлечение признаков, выбор признаков
  • Шаг 3: Частота терминов (TF)
  • Шаг 4: Обратная частота документов (IDF)
  • Шаг 5: TF * IDF
  • Шаг 6: Нормализовать TF-IDF к векторам фиксированной длины
Шаги 7 и 8 — это то, где мне нужны некоторые рекомендации:
Шаг 7: векторная пространственная модель – косинусное подобие< /p>
Единственные примеры, которые я могу найти, — это сравнение входного запроса с каждым документом и поиск сходства. Если нет входного запроса (это не система поиска информации), сравниваю ли я каждый отдельный документ в корпусе с каждым другим документом в корпусе (каждой парой документов)? Я не могу найти ни одного примера косинусного сходства, примененного к полной коллекции документов, а не к одному примеру/запросу по сравнению с коллекцией.
Шаг 8: K-средние
Я изо всех сил пытаюсь понять, должен ли входной вектор для k-средних содержать матрицу оценки косинусного сходства каждого документа в коллекции по сравнению с каждым другим документом (матрица косинусного сходства ). Или предполагается, что k-средние применяются к векторной модели термина? Если это последнее, то каждый пример k-средних, который я могу найти, довольно прост и отображает либо единичные термины. Как мне справиться с тем фактом, что в моей коллекции документов есть несколько терминов и т. д.?
Косинусное сходство и K-средние подразумеваются как решение для кластеризации документов в таком большом количестве примеров, поэтому я их пропускаю. что-то очень очевидное.

Подробнее здесь: https://stackoverflow.com/questions/301 ... similarity
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Php»