Как оставить столбцы в покое при использовании группы Pandas

Как оставить столбцы в покое при использовании группы Pandas ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как оставить столбцы в покое при использовании группы Pandas

Цитата

Сообщение Anonymous » 16 янв 2025, 06:46

Данные:
df = pd.DataFrame({"id": [1, 2, 3, 4, 5, 7], "name" : ["Джо", «Генри», «Сэм», «Макс», «Джанет», «Уилл»], «зарплата» : [85000, 80000, 60000, 90000, 69000, 70000], "departmentId" : [1, 2, 2, 1, 1, 1]})

Код: Выделить всё

    id    name   salary  departmentId
0    1     Joe    85000             1
1    2   Henry    80000             2
2    3     Sam    60000             2
3    4     Max    90000             1
4    5   Janet    69000             1
5    7    Will    70000             1

Я хочу найти сотрудников с 3-мя самыми большими зарплатами в каждом отделе. Итак, цель состоит в том, чтобы закончить с этим DataFrame:

Код: Выделить всё

Department   Employee   Salary
IT        Max    90000
IT        Joe    85000
IT      Randy    85000
IT       Will    70000
Sales      Henry    80000
Sales        Sam    60000

Некоторые вопросы:

Я не уверен, как группировать по отделам и агрегировать зарплату, сохраняя при этом соответствующие имена сотрудников в каждой строке (см. желаемый результат выше). Есть ли способ сделать это?
При группировке по идентификатору отдела и агрегировании по зарплате я получаю серию MultiIndex с внутренним уровнем, который, кажется, соответствует исходному индексу каждой строки в дф. Почему возвращается серия MultiIndex и что случилось со столбцом сотрудников, который я исключил из операции группировки?

df_grouped = df.groupby("departmentId")["salary"].nlargest(3):

Если я также передам as_index = Ложь для приведенного выше вызова groupby, я получаю следующую ошибку: «Длина значений (2) не соответствует длине индекса (5)». Почему это происходит?

Спасибо за помощь!

Подробнее здесь: https://stackoverflow.com/questions/793 ... as-groupby

1736999212

Anonymous

Данные:
df = pd.DataFrame({"id": [1, 2, 3, 4, 5, 7], "name" : ["Джо", «Генри», «Сэм», «Макс», «Джанет», «Уилл»], «зарплата» : [85000, 80000, 60000, 90000, 69000, 70000], "departmentId" : [1, 2, 2, 1, 1, 1]})
[code]    id    name   salary  departmentId
0    1     Joe    85000             1
1    2   Henry    80000             2
2    3     Sam    60000             2
3    4     Max    90000             1
4    5   Janet    69000             1
5    7    Will    70000             1
[/code]
Я хочу найти сотрудников с 3-мя самыми большими зарплатами в каждом отделе. Итак, цель состоит в том, чтобы закончить с этим DataFrame:
[code]Department   Employee   Salary
IT        Max    90000
IT        Joe    85000
IT      Randy    85000
IT       Will    70000
Sales      Henry    80000
Sales        Sam    60000
[/code]
Некоторые вопросы:
[list]
[*][b]Я не уверен, как группировать по отделам и агрегировать зарплату, сохраняя при этом соответствующие имена сотрудников в каждой строке (см. желаемый результат выше). Есть ли способ сделать это?[/b]
[*]При группировке по идентификатору отдела и агрегировании по зарплате я получаю серию MultiIndex с внутренним уровнем, который, кажется, соответствует исходному индексу каждой строки в дф. [b]Почему возвращается серия MultiIndex и что случилось со столбцом сотрудников, который я исключил из операции группировки?[/b]
[/list]
df_grouped = df.groupby("departmentId")["salary"].nlargest(3):
[img]https://i.sstatic.net/KnvfyYGy.png[/img]

[list]
[*][b]Если я также передам as_index = Ложь для приведенного выше вызова groupby, я получаю следующую ошибку: «Длина значений (2) не соответствует длине индекса (5)». Почему это происходит?[/b]
[/list]
Спасибо за помощь! 

Подробнее здесь: [url]https://stackoverflow.com/questions/79360307/how-to-leave-columns-alone-while-using-pandas-groupby[/url]