Пример данных:
Код: Выделить всё
import pandas as pd
df = pd.DataFrame({
"id": [1, 2, 3, 4, 5, 6],
"email": [
"a@example.com",
"b@example.com",
"a@example.com",
"c@example.com",
"b@example.com",
"d@example.com"
]
})
print(df)
Код: Выделить всё
id email
0 1 a@example.com
1 2 b@example.com
3 4 c@example.com
5 6 d@example.com
Что я пробовал:
Код: Выделить всё
df.drop_duplicates(subset="email")
В некоторых случаях, даже когда я добавляю параметр Keep="first", порядок меняется.
Мои вопросы:
- Как сохранить первые записи и порядок DataFrame при выполнении этой операции?
- Рекомендуются ли какие-либо другие методы для такого типа очистки данных кроме drop_duplications?
Подробнее здесь: https://stackoverflow.com/questions/798 ... umn-in-pan
Мобильная версия