Я очищаю экстракт CRM на Python и хочу обеспечить соблюдение правила качества данных: каждый customer_id должен появляться в наборе данных только один раз.
Чтобы проверить это, я использую следующий код:
import pandas as pd
data = {
"customer_id": [101, 101, 102, 103, 103],
"email": [
"a@example.com",
"a.duplicate@example.com",
"b@example.com",
"c@example.com",
"c.duplicate@example.com",
],
"status": ["Active", "Active", "Inactive", "Active", "Active"],
}
df = pd.DataFrame(data)
# try to keep only unique customers
deduped = df.drop_duplicates(subset=["customer_id"])
print(deduped)
print("unique customers:", deduped["customer_id"].nunique())
print("rows:", len(deduped))
Подробнее здесь: https://stackoverflow.com/questions/798 ... ustomer-id
Мобильная версия