- Определить 10% самых длинных стихотворений на основе количества слов в каждом стихотворении.
- Отфильтруйте набор данных, чтобы сохранить только те стихи, которые входят в верхний дециль по длине.
- Вычислите косинусное сходство для этого отфильтрованного набора данных.
- Создайте новый график MDS (с использованием PCA для простота), чтобы визуализировать отфильтрованные стихи с разными цветами для стихотворений «Другие» и «Массы».
[*]Рассчитано Poem_Length как количество слов для каждого стихотворения.
[*]Использован 90-й процентиль Poem_Length в качестве порога для вершина 10%.
[*]Набор данных отфильтрован, чтобы сохранить только стихи с длиной, равной или превышающей этот порог.
[*]Векторизовал отфильтрованные стихи с помощью TF-IDF и вычислено косинусное сходство.
[*]Уменьшил матрицу косинусного сходства до двух измерений с помощью PCA и отобразил результаты, используя разные цвета для стихотворений «Другие» и «Массы».
Подробнее здесь: https://stackoverflow.com/questions/791 ... ize-cosine