Pandas обнаруживает, содержит ли значение серии имена

Pandas обнаруживает, содержит ли значение серии имена ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Pandas обнаруживает, содержит ли значение серии имена

Цитата

Сообщение Anonymous » 22 окт 2024, 20:09

У меня большой набор данных (~ 150 000 строк), и один из столбцов Имя содержит имена поставщиков, смешанные с отдельными именами (в формате Фамилия, Имя). Я пытаюсь изменить порядок только отдельных имен в формате имени и фамилии.
В этом ответе я видел, что могу сделать df['Name'] =df['Name'].str .split(', ').map(lambda x : ' '.join(x[::-1])), чтобы изменить его порядок, но проблема в том, что многие имена поставщиков также имеют , в строке, и это не сработает.
Я нашел библиотеку Stanza, которая может определять, содержит ли строка имя. Вот пример кода:

Код: Выделить всё

import stanza
stanza.download('en')
nlp = stanza.Pipeline('en')
doc = nlp("My name is John Doe.")
doc.ents
[{
"text": "John Doe",
"type": "PERSON",
"start_char": 11,
"end_char": 19
}]

Я просто собирался получить доступ к doc.ents[0]['type']
Мой вопрос: как мне проверить каждое значение в имени< столбец /code>, содержащий , и изменить формат имени только для этих людей?

Подробнее здесь: https://stackoverflow.com/questions/791 ... ains-names

1729616999

Anonymous

У меня большой набор данных (~ 150 000 строк), и один из столбцов Имя содержит имена поставщиков, смешанные с отдельными именами (в формате Фамилия, Имя). Я пытаюсь изменить порядок только отдельных имен в формате имени и фамилии.
В этом ответе я видел, что могу сделать df['Name'] =df['Name'].str .split(', ').map(lambda x : ' '.join(x[::-1])), чтобы изменить его порядок, но проблема в том, что многие имена поставщиков также имеют ,  в строке, и это не сработает.
Я нашел библиотеку Stanza, которая может определять, содержит ли строка имя. Вот пример кода:
[code]import stanza
stanza.download('en')
nlp = stanza.Pipeline('en')
doc = nlp("My name is John Doe.")
doc.ents
[{
"text": "John Doe",
"type": "PERSON",
"start_char": 11,
"end_char": 19
}]
[/code]
Я просто собирался получить доступ к doc.ents[0]['type']
Мой вопрос: как мне проверить каждое значение в имени< столбец /code>, содержащий , и изменить формат имени только для этих людей? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79115073/pandas-detect-if-series-value-contains-names[/url]