Как я могу отфильтровать 10% самых длинных текстов в наборе данных и визуализировать косинусное сходство на графике MDS?Python

Программы на Python
Ответить
Anonymous
 Как я могу отфильтровать 10% самых длинных текстов в наборе данных и визуализировать косинусное сходство на графике MDS?

Сообщение Anonymous »

Я работаю с набором данных стихотворений, где каждая строка представляет стихотворение со столбцами для текста стихотворения (Poem_Text) и его категории (Тип: «Другие» или «Массы»). Я хочу сделать следующее:
  • Определить 10% самых длинных стихотворений на основе количества слов в каждом стихотворении.
  • Отфильтруйте набор данных, чтобы сохранить только те стихи, которые входят в верхний дециль по длине.
  • Вычислите косинусное сходство для этого отфильтрованного набора данных.
  • Создайте новый график MDS (с использованием PCA для простота), чтобы визуализировать отфильтрованные стихи с разными цветами для стихотворений «Другие» и «Массы».
Вот подход, который я пробовал до сих пор:

[*]Рассчитано Poem_Length как количество слов для каждого стихотворения.
[*]Использован 90-й процентиль Poem_Length в качестве порога для вершина 10%.
[*]Набор данных отфильтрован, чтобы сохранить только стихи с длиной, равной или превышающей этот порог.
[*]Векторизовал отфильтрованные стихи с помощью TF-IDF и вычислено косинусное сходство.
[*]Уменьшил матрицу косинусного сходства до двух измерений с помощью PCA и отобразил результаты, используя разные цвета для стихотворений «Другие» и «Массы».


Подробнее здесь: https://stackoverflow.com/questions/791 ... ize-cosine
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»