Пример данных:
Код: Выделить всё
import pandas as pd
df = pd.DataFrame({
"id": [1, 2, 3, 4, 5, 6],
"email": [
"a@example.com",
"b@example.com",
"a@example.com",
"c@example.com",
"b@example.com",
"d@example.com"
]
})
print(df)
Код: Выделить всё
id email
0 1 a@example.com
1 2 b@example.com
3 4 c@example.com
5 6 d@example.com
Что я пробовал:
df.drop_duulates(subset="email")
Это работает, но иногда я теряю исходный порядок или индексы.
В некоторых случаях, даже когда я добавляю параметр Keep="first", порядок меняется.
Мои вопросы:
1-Как мне сохранить первые записи и порядок DataFrame при выполнении этой операции?
2-Рекомендуются ли какие-либо другие методы для такого типа очистки данных, кроме drop_duplications?
Подробнее здесь: https://stackoverflow.com/questions/798 ... umn-in-pan
Мобильная версия