Как я могу отфильтровать 10% самых длинных текстов в наборе данных и визуализировать косинусное сходство на графике MDS? - Цифровое Кемерово

Как я могу отфильтровать 10% самых длинных текстов в наборе данных и визуализировать косинусное сходство на графике MDS? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Как я могу отфильтровать 10% самых длинных текстов в наборе данных и визуализировать косинусное сходство на графике MDS?

Цитата

Сообщение Anonymous » 11 ноя 2024, 04:40

Я работаю с набором данных стихотворений, где каждая строка представляет стихотворение со столбцами для текста стихотворения (Poem_Text) и его категории (Тип: «Другие» или «Массы»). Я хочу сделать следующее:

Определить 10% самых длинных стихотворений на основе количества слов в каждом стихотворении.
Отфильтруйте набор данных, чтобы сохранить только те стихи, которые входят в верхний дециль по длине.
Вычислите косинусное сходство для этого отфильтрованного набора данных.
Создайте новый график MDS (с использованием PCA для простота), чтобы визуализировать отфильтрованные стихи с разными цветами для стихотворений «Другие» и «Массы».

Вот подход, который я пробовал до сих пор:

[*]Рассчитано Poem_Length как количество слов для каждого стихотворения.
[*]Использован 90-й процентиль Poem_Length в качестве порога для вершина 10%.
[*]Набор данных отфильтрован, чтобы сохранить только стихи с длиной, равной или превышающей этот порог.
[*]Векторизовал отфильтрованные стихи с помощью TF-IDF и вычислено косинусное сходство.
[*]Уменьшил матрицу косинусного сходства до двух измерений с помощью PCA и отобразил результаты, используя разные цвета для стихотворений «Другие» и «Массы».

Подробнее здесь: https://stackoverflow.com/questions/791 ... ize-cosine

1731289240

Anonymous

Я работаю с набором данных стихотворений, где каждая строка представляет стихотворение со столбцами для текста стихотворения (Poem_Text) и его категории (Тип: «Другие» или «Массы»). Я хочу сделать следующее:
[list]
[*]Определить 10% самых длинных стихотворений на основе количества слов в каждом стихотворении.
[*]Отфильтруйте набор данных, чтобы сохранить только те стихи, которые входят в верхний дециль по длине.
[*]Вычислите косинусное сходство для этого отфильтрованного набора данных.
[*]Создайте новый график MDS (с использованием PCA для простота), чтобы визуализировать отфильтрованные стихи с разными цветами для стихотворений «Другие» и «Массы».
[/list]
Вот подход, который я пробовал до сих пор: 

[*]Рассчитано Poem_Length как количество слов для каждого стихотворения.
[*]Использован 90-й процентиль Poem_Length в качестве порога для вершина 10%.
[*]Набор данных отфильтрован, чтобы сохранить только стихи с длиной, равной или превышающей этот порог.
[*]Векторизовал отфильтрованные стихи с помощью TF-IDF и вычислено косинусное сходство.
[*]Уменьшил матрицу косинусного сходства до двух измерений с помощью PCA и отобразил результаты, используя разные цвета для стихотворений «Другие» и «Массы».
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79176169/how-can-i-filter-for-the-top-10-longest-texts-in-a-dataset-and-visualize-cosine[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»