Представление отсутствующего значения Pandas в агрегированном кадре данных

Представление отсутствующего значения Pandas в агрегированном кадре данных ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Представление отсутствующего значения Pandas в агрегированном кадре данных

Цитата

Сообщение Anonymous » 11 окт 2024, 16:44

При применении агрегирования к сгруппированному фрейму данных pandas агрегированные выходные данные содержат разные значения для агрегированных столбцов со всеми пропущенными значениями, в зависимости от типа столбца фрейма данных. Ниже приведен минимальный пример, содержащий одно непропущенное значение (целое число, строку и кортеж), одно значение NaN и одно значение None каждое:

Код: Выделить всё

import pandas as pd
import numpy as np

a1 = pd.DataFrame({'a': [3, np.nan, None], 'b': [0,1,2]})
a2 = pd.DataFrame({'a': ['tree', np.nan, None], 'b': [0,1,2]})
a3 = pd.DataFrame({'a': [(0,1,2), np.nan, None], 'b': [0,1,2]})

a1.groupby('b')['a'].first()
a2.groupby('b')['a'].first()
a3.groupby('b')['a'].first()

a1.groupby('b')['a'].agg('first')
a2.groupby('b')['a'].agg('first')
a3.groupby('b')['a'].agg('first')

Глядя на dtypes столбца 'a', можно увидеть, что это float64, object и object< /code> для a1, a2 и a3 соответственно. None в a1 преобразуется в NaN при создании кадра данных. Поэтому я бы имел следующее
Ожидаемое поведение вывода:

Код: Выделить всё
```
a1
```
: NaN для строк 1 и 2 (это так)
Код: Выделить всё
```
a2
```
: NaN и None для строк 1 и 2 (не так)
Код: Выделить всё
```
a3
```
: NaN и None для строк 1 и 2 (не тот случай)

Фактический результат :

Код: Выделить всё

b
0    3.0
1    NaN
2    NaN
Name: a, dtype: float64

b
0    tree
1    None
2    None
Name: a, dtype: object

b
0    (0, 1, 2)
1         None
2         None
Name: a, dtype: object

Почему агрегация изменяет данные с NaN на None для строки 1 в a2 и a3?< /strong> Поскольку столбец в любом случае относится к объекту dtype, не должно возникнуть проблем с возвратом NaN и None для строк 1 и 2 соответственно; и здесь мы не находимся в сценарии, в котором любая агрегируемая группа содержит как NaN, так и None. Документация (https://pandas.pydata.org/docs/referenc ... first.html) также не очень точна в отношении этого поведения, она просто упоминает возвращаемое значение для всех NA. -columns – нет данных.

Обновление:
Как упоминалось в ответе @mozway далее ниже, для чистых групп NaN/None,skipna=False может использоваться для сохранения NaN и None соответственно. Однако это не работает при наличии смешанных столбцов с неотсутствующими/отсутствующими значениями и столбцов со всеми пропущенными значениями (например, [[np.nan, None, 'tree'],[np.nan, None]] ), где нам все равно хотелось бы получить первое непропущенное значение, так как для этого потребуется передать Skipna=True.

Подробнее здесь: https://stackoverflow.com/questions/790 ... -dataframe

1728654287

Anonymous

При применении агрегирования к сгруппированному фрейму данных pandas агрегированные выходные данные содержат разные значения для агрегированных столбцов со всеми пропущенными значениями, в зависимости от типа столбца фрейма данных. Ниже приведен минимальный пример, содержащий одно непропущенное значение (целое число, строку и кортеж), одно значение NaN и одно значение None каждое:
[code]import pandas as pd
import numpy as np

a1 = pd.DataFrame({'a': [3, np.nan, None], 'b': [0,1,2]})
a2 = pd.DataFrame({'a': ['tree', np.nan, None], 'b': [0,1,2]})
a3 = pd.DataFrame({'a': [(0,1,2), np.nan, None], 'b': [0,1,2]})

a1.groupby('b')['a'].first()
a2.groupby('b')['a'].first()
a3.groupby('b')['a'].first()

a1.groupby('b')['a'].agg('first')
a2.groupby('b')['a'].agg('first')
a3.groupby('b')['a'].agg('first')
[/code]
Глядя на dtypes столбца 'a', можно увидеть, что это float64, object и object< /code> для a1, a2 и a3 соответственно. None в a1 преобразуется в NaN при создании кадра данных. Поэтому я бы имел следующее
[b]Ожидаемое поведение вывода:[/b]
[list]
[*][code]a1[/code]: NaN для строк 1 и 2 (это так)
[*][code]a2[/code]: NaN и None для строк 1 и 2 (не так)
[*][code]a3[/code]: NaN и None для строк 1 и 2 (не тот случай)
[/list]
[b]Фактический результат :[/b]
[code]b
0    3.0
1    NaN
2    NaN
Name: a, dtype: float64

b
0    tree
1    None
2    None
Name: a, dtype: object

b
0    (0, 1, 2)
1         None
2         None
Name: a, dtype: object
[/code]
[b]Почему агрегация изменяет данные с NaN на None для строки 1 в a2 и a3?< /strong> Поскольку столбец в любом случае относится к объекту dtype, не должно возникнуть проблем с возвратом NaN и None для строк 1 и 2 соответственно; и здесь мы не находимся в сценарии, в котором любая агрегируемая группа содержит как NaN, так и None. Документация (https://pandas.pydata.org/docs/reference/api/pandas.core.groupby.DataFrameGroupBy.first.html) также не очень точна в отношении этого поведения, она просто упоминает возвращаемое значение для всех NA. -columns – нет данных.

Обновление:[/b]
Как упоминалось в ответе @mozway далее ниже, для чистых групп NaN/None,skipna=False может использоваться для сохранения NaN и None соответственно. Однако это не работает при наличии смешанных столбцов с неотсутствующими/отсутствующими значениями и столбцов со всеми пропущенными значениями (например, [[np.nan, None, 'tree'],[np.nan, None]] ), где нам все равно хотелось бы получить первое непропущенное значение, так как для этого потребуется передать Skipna=True. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79077734/pandas-missing-value-representation-in-aggregated-dataframe[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Представление отсутствующего значения Pandas в агрегированном кадре данных

Последнее сообщение Anonymous « 11 окт 2024, 13:11
Добавлено в форуме Python

Anonymous » 11 окт 2024, 13:11 » в форуме Python

При применении агрегирования к сгруппированному фрейму данных pandas агрегированные выходные данные содержат разные значения для агрегированных столбцов со всеми пропущенными значениями, в зависимости от типа столбца фрейма данных. Ниже приведен...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
11 окт 2024, 13:11
Представление отсутствующего значения Pandas в агрегированном кадре данных

Последнее сообщение Anonymous « 14 окт 2024, 12:22
Добавлено в форуме Python

Anonymous » 14 окт 2024, 12:22 » в форуме Python

При применении агрегирования к сгруппированному фрейму данных pandas агрегированные выходные данные содержат разные значения для агрегированных столбцов со всеми пропущенными значениями, в зависимости от типа столбца фрейма данных. Ниже приведен...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
14 окт 2024, 12:22
Функция для поиска всех имен, присутствующих и отсутствующих в кадре данных проверки, в другом кадре данных в Pandas.

Последнее сообщение Anonymous « 21 окт 2024, 23:17
Добавлено в форуме Python

Anonymous » 21 окт 2024, 23:17 » в форуме Python

У меня есть фрейм данных, который содержит следующую структуру:

А мне нужно проверить, присутствуют ли строки из столбца Имя из столбцов МНЕМОНИКА 1, 2, 3 и так далее, по контрольному списку, имеющему следующий формат:
p>

Что мне нужно...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
21 окт 2024, 23:17
Функция для поиска всех имен, присутствующих и отсутствующих в кадре данных проверки, в другом кадре данных в Pandas.

Последнее сообщение Anonymous « 22 окт 2024, 03:48
Добавлено в форуме Python

Anonymous » 22 окт 2024, 03:48 » в форуме Python

У меня есть фрейм данных, который содержит следующую структуру:

А мне нужно проверить, присутствуют ли строки из столбца Имя из столбцов МНЕМОНИКА 1, 2, 3 и так далее, по контрольному списку, имеющему следующий формат:
p>

Что мне нужно...

0 Ответы

26 Просмотры

Последнее сообщение Anonymous
22 окт 2024, 03:48
Изменение значения столбца в кадре данных Pandas на основе другого столбца, содержащего логические значения (слабое пред

Последнее сообщение Anonymous « 31 дек 2023, 20:58
Добавлено в форуме Python

Anonymous » 31 дек 2023, 20:58 » в форуме Python

У меня есть кадр данных Pandas, и я хотел бы изменить значение в столбце, если логическое значение в другом столбце равно True.

У меня есть код, который работает, но PyCharm выдает слабое предупреждение об использовании двойных кавычек для...

0 Ответы

141 Просмотры

Последнее сообщение Anonymous
31 дек 2023, 20:58

Вернуться в «Python»