Как фильтровать и извлекать определенные теги POS из столбца DataFrame, содержащего списки кортежей в Python? - Цифровое Кемерово

Как фильтровать и извлекать определенные теги POS из столбца DataFrame, содержащего списки кортежей в Python? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Как фильтровать и извлекать определенные теги POS из столбца DataFrame, содержащего списки кортежей в Python?

Цитата

Сообщение Anonymous » 18 ноя 2024, 00:03

Я работаю с DataFrame в Python, в котором есть столбец с именем «POS_TAGS». Каждая запись в этом столбце представляет собой список кортежей, где каждый кортеж содержит слово и его тег части речи (POS). Вот пример структуры данных в столбце «POS_TAGS»:

Код: Выделить всё

[
    [('word1', 'NN'), ('word2', 'VB'), ('word3', 'NN')],
    [('word4', 'JJ'), ('word5', 'NN')],
    ...
]

Я хотел бы извлечь из этого столбца все слова, имеющие определенный тег POS (например, «NN» для существительных) и сохранить их в списке. Как я могу сделать это эффективно?
Я пытался использовать понимание списков, но не уверен, что подхожу к этому правильно и эффективно.
Попытка кода

Код: Выделить всё

# Example code attempt
target_tag = 'NN'
all_words_with_target_tag = [
    word for row in df['POS_TAGS'] for word, tag in row if tag == target_tag
]

Это правильный подход? Существуют ли лучшие методы решения задач такого рода, особенно если DataFrame большой? Будем признательны за любые рекомендации по оптимизации или объяснению использования функции распознавания списков!

Подробнее здесь: https://stackoverflow.com/questions/791 ... containing

1731877427

Anonymous

Я работаю с DataFrame в Python, в котором есть столбец с именем «POS_TAGS». Каждая запись в этом столбце представляет собой список кортежей, где каждый кортеж содержит слово и его тег части речи (POS). Вот пример структуры данных в столбце «POS_TAGS»:
[code][
    [('word1', 'NN'), ('word2', 'VB'), ('word3', 'NN')],
    [('word4', 'JJ'), ('word5', 'NN')],
    ...
]
[/code]
Я хотел бы извлечь из этого столбца все слова, имеющие определенный тег POS (например, «NN» для существительных) и сохранить их в списке. Как я могу сделать это эффективно?
Я пытался использовать понимание списков, но не уверен, что подхожу к этому правильно и эффективно.
Попытка кода
[code]# Example code attempt
target_tag = 'NN'
all_words_with_target_tag = [
    word for row in df['POS_TAGS'] for word, tag in row if tag == target_tag
]
[/code]
Это правильный подход? Существуют ли лучшие методы решения задач такого рода, особенно если DataFrame большой? Будем признательны за любые рекомендации по оптимизации или объяснению использования функции распознавания списков!
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79198161/how-do-i-filter-and-extract-specific-pos-tags-from-a-dataframe-column-containing[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»