Группа панд по подмножеству возвращает неправильное количество строк

Группа панд по подмножеству возвращает неправильное количество строк ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Группа панд по подмножеству возвращает неправильное количество строк

Цитата

Сообщение Anonymous » 29 ноя 2024, 13:09

Я значительно упрощаю этот вопрос (по сравнению с первоначальным проектом).
Для данного фрейма данных категориального типа, если я подмножеству фрейма данных, чтобы он содержал только несколько категориальных типов, значений, подмножество данных по-прежнему запоминает полный список уровней категорий.
Когда я группирую по этому, меньшему по размеру, кадру данных, я продолжаю получать значения, которых я не ожидаю .
Вот код, который повторяет это:

Код: Выделить всё

import pandas as pd

df = pd.DataFrame({
'colA':['a', 'b', 'b', 'c', 'c', 'c'],
'colB':1
})
df['colA'] = df['colA'].astype('category') #[code]FEATHER_PATH = Path.joinpath(Path.home(), 'Downloads', 'test.feather')
smalldf.to_feather(FEATHER_PATH)

pd.read_feather(FEATHER_PATH)['colA']

Код: Выделить всё

0    a
1    b
2    b
Name: colA, dtype: category
Categories (3, object): ['a', 'b', 'c']

Предположим, вы записываете меньший фрейм данных и передаете его кому-нибудь. Они просматривают файл и видят только значения colA «a» и «b». Однако, когда они группируются, появляется буква «c». «c» не встречается в реальных данных!
Им придется явно искать уровни категорий, чтобы найти спрятанную там букву «c»!
Я не уверен, что такое поведение неправильное, но оно определенно может сбить с толку!
Не уверен, что это можно оставить здесь в качестве предупреждения другим.< /п>

Подробнее здесь: https://stackoverflow.com/questions/715 ... er-of-rows

1732874940

Anonymous

Я значительно упрощаю этот вопрос (по сравнению с первоначальным проектом).
Для данного фрейма данных категориального типа, если я подмножеству фрейма данных, чтобы он содержал только несколько категориальных типов, значений, подмножество данных по-прежнему запоминает полный список уровней категорий.
Когда я группирую по этому, меньшему по размеру, кадру данных, я продолжаю получать значения, которых я не ожидаю .
Вот код, который повторяет это:
[code]import pandas as pd

df = pd.DataFrame({
'colA':['a', 'b', 'b', 'c', 'c', 'c'],
'colB':1
})
df['colA'] = df['colA'].astype('category') #[code]FEATHER_PATH = Path.joinpath(Path.home(), 'Downloads', 'test.feather')
smalldf.to_feather(FEATHER_PATH)

pd.read_feather(FEATHER_PATH)['colA']
[/code]
[code]0    a
1    b
2    b
Name: colA, dtype: category
Categories (3, object): ['a', 'b', 'c']
[/code]
Предположим, вы записываете меньший фрейм данных и передаете его кому-нибудь. Они просматривают файл и видят только значения colA «a» и «b». Однако, когда они группируются, появляется буква «c». «c» не встречается в реальных данных!
Им придется явно искать уровни категорий, чтобы найти спрятанную там букву «c»!
Я не уверен, что такое поведение неправильное, но оно определенно может сбить с толку!
Не уверен, что это можно оставить здесь в качестве предупреждения другим.< /п> 

Подробнее здесь: [url]https://stackoverflow.com/questions/71550408/pandas-group-by-on-a-subset-returns-wrong-number-of-rows[/url]