Почему моя проверка дубликатов панд по-прежнему допускает несколько записей для каждого customer_id? - Цифровое Кемерово

Почему моя проверка дубликатов панд по-прежнему допускает несколько записей для каждого customer_id? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Почему моя проверка дубликатов панд по-прежнему допускает несколько записей для каждого customer_id?

Цитата

Сообщение Anonymous » 20 дек 2025, 13:48

Я очищаю экстракт CRM на Python и хочу обеспечить соблюдение правила качества данных: каждый customer_id должен появляться в наборе данных только один раз.
Чтобы проверить это, я использую следующий код:
import pandas as pd

data = {
"customer_id": [101, 101, 102, 103, 103],
"email": [
"a@example.com",
"a.duplicate@example.com",
"b@example.com",
"c@example.com",
"c.duplicate@example.com",
],
"status": ["Active", "Active", "Inactive", "Active", "Active"],
}

df = pd.DataFrame(data)

# try to keep only unique customers
deduped = df.drop_duplicates(subset=["customer_id"])
print(deduped)
print("unique customers:", deduped["customer_id"].nunique())
print("rows:", len(deduped))

Подробнее здесь: https://stackoverflow.com/questions/798 ... ustomer-id

1766227720

Anonymous

Я очищаю экстракт CRM на Python и хочу обеспечить соблюдение правила качества данных: каждый [b]customer_id[/b] должен появляться в наборе данных только один раз.
Чтобы проверить это, я использую следующий код:
import pandas as pd

data = {
"customer_id": [101, 101, 102, 103, 103],
"email": [
"a@example.com",
"a.duplicate@example.com",
"b@example.com",
"c@example.com",
"c.duplicate@example.com",
],
"status": ["Active", "Active", "Inactive", "Active", "Active"],
}

df = pd.DataFrame(data)

# try to keep only unique customers
deduped = df.drop_duplicates(subset=["customer_id"])
print(deduped)
print("unique customers:", deduped["customer_id"].nunique())
print("rows:", len(deduped))
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79851712/why-does-my-pandas-duplicate-check-still-allow-multiple-records-per-customer-id[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»