Как я могу отфильтровать 10% самых длинных текстов в наборе данных и визуализировать косинусное сходство на графике MDS?Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Как я могу отфильтровать 10% самых длинных текстов в наборе данных и визуализировать косинусное сходство на графике MDS?

Сообщение Anonymous »

Я работаю с набором данных стихотворений, где каждая строка представляет стихотворение со столбцами для текста стихотворения (Poem_Text) и его категории (Тип: «Другие» или «Массы»). Я хочу сделать следующее:
  • Определить 10% самых длинных стихотворений на основе количества слов в каждом стихотворении.
  • Отфильтруйте набор данных, чтобы сохранить только те стихи, которые входят в верхний дециль по длине.
  • Вычислите косинусное сходство для этого отфильтрованного набора данных.
  • Создайте новый график MDS (с использованием PCA для простота), чтобы визуализировать отфильтрованные стихи с разными цветами для стихотворений «Другие» и «Массы».
Вот подход, который я пробовал до сих пор:

[*]Рассчитано Poem_Length как количество слов для каждого стихотворения.
[*]Использован 90-й процентиль Poem_Length в качестве порога для вершина 10%.
[*]Набор данных отфильтрован, чтобы сохранить только стихи с длиной, равной или превышающей этот порог.
[*]Векторизовал отфильтрованные стихи с помощью TF-IDF и вычислено косинусное сходство.
[*]Уменьшил матрицу косинусного сходства до двух измерений с помощью PCA и отобразил результаты, используя разные цвета для стихотворений «Другие» и «Массы».


Подробнее здесь: https://stackoverflow.com/questions/791 ... ize-cosine
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение
  • Косинусное сходство между двумя списками чисел
    Anonymous » » в форуме Python
    0 Ответы
    23 Просмотры
    Последнее сообщение Anonymous
  • API OpenAI Embeddings: как получить встраивание и вычислить косинусное сходство?
    Anonymous » » в форуме Python
    0 Ответы
    19 Просмотры
    Последнее сообщение Anonymous
  • Косинусное сходство между тремя текстовыми файлами
    Anonymous » » в форуме Python
    0 Ответы
    19 Просмотры
    Последнее сообщение Anonymous
  • Как получить косинусное сходство слова, встраиваемого из модели BERT
    Anonymous » » в форуме Python
    0 Ответы
    17 Просмотры
    Последнее сообщение Anonymous
  • Объясненное отличие от MDS scikit-learn
    Anonymous » » в форуме Python
    0 Ответы
    13 Просмотры
    Последнее сообщение Anonymous

Вернуться в «Python»