В фильтре полярностей Python и агрегировании списков

В фильтре полярностей Python и агрегировании списков ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

В фильтре полярностей Python и агрегировании списков

Цитата

Сообщение Anonymous » 14 окт 2024, 20:04

У меня есть фрейм данных со строковым представлением json:

Код: Выделить всё

df = pl.DataFrame({
"json": [
'{"x":[0,1,2,3], "y":[10,20,30,40]}',
'{"x":[0,1,2,3], "y":[10,20,30,40]}',
'{"x":[0,1,2,3], "y":[10,20,30,40]}'
]
})

Код: Выделить всё

shape: (3, 1)
┌───────────────────────────────────┐
│ json                              │
│ ---                               │
│ str                               │
╞═══════════════════════════════════╡
│ {"x":[0,1,2,3], "y":[10,20,30,40… │
│ {"x":[0,1,2,3], "y":[10,20,30,40… │
│ {"x":[0,1,2,3], "y":[10,20,30,40… │
└───────────────────────────────────┘

Теперь я хотел бы вычислить среднее для y, где x > 0 и x dict, а затем создайте фрейм данных, который фильтруется по x.

Код: Выделить всё

# import ast
df = df.with_columns(
pl.col('json').map_elements(lambda x: pl.DataFrame(ast.literal_eval(x)).filter((pl.col('x') < 3) & (pl.col('x') > 0))['y'].mean())
)

Код: Выделить всё

shape: (3, 1)
┌──────┐
│ json │
│ ---  │
│ f64  │
╞══════╡
│ 25.0 │
│ 25.0 │
│ 25.0 │
└──────┘

Это работает нормально, но для больших наборов данных функции Apply значительно замедляют процесс.
Есть ли более элегантный и быстрый способ сделать это?

Подробнее здесь: https://stackoverflow.com/questions/762 ... t-of-lists

1728925495

Anonymous

У меня есть фрейм данных со строковым представлением json:
[code]df = pl.DataFrame({
"json": [
'{"x":[0,1,2,3], "y":[10,20,30,40]}',
'{"x":[0,1,2,3], "y":[10,20,30,40]}',
'{"x":[0,1,2,3], "y":[10,20,30,40]}'
]
})
[/code]
[code]shape: (3, 1)
┌───────────────────────────────────┐
│ json                              │
│ ---                               │
│ str                               │
╞═══════════════════════════════════╡
│ {"x":[0,1,2,3], "y":[10,20,30,40… │
│ {"x":[0,1,2,3], "y":[10,20,30,40… │
│ {"x":[0,1,2,3], "y":[10,20,30,40… │
└───────────────────────────────────┘
[/code]
Теперь я хотел бы вычислить [b]среднее[/b] для [b]y[/b], где [b]x > 0[/b] и [b] x  dict, а затем создайте фрейм данных, который фильтруется по x.
[code]# import ast
df = df.with_columns(
pl.col('json').map_elements(lambda x: pl.DataFrame(ast.literal_eval(x)).filter((pl.col('x') < 3) & (pl.col('x') > 0))['y'].mean())
)
[/code]
[code]shape: (3, 1)
┌──────┐
│ json │
│ ---  │
│ f64  │
╞══════╡
│ 25.0 │
│ 25.0 │
│ 25.0 │
└──────┘
[/code]

Это работает нормально, но для больших наборов данных функции Apply значительно замедляют процесс.
Есть ли более элегантный и быстрый способ сделать это? 

Подробнее здесь: [url]https://stackoverflow.com/questions/76218303/in-python-polars-filter-and-aggregate-dict-of-lists[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Google Python API для тегов списков. Возвращение 400 Недопустимого имени тега в фильтре

Последнее сообщение Anonymous « 24 янв 2025, 18:20
Добавлено в форуме Python

Anonymous » 24 янв 2025, 18:20 » в форуме Python

Согласно документации в Google,

Мне нужно указать фильтр как:
name=projects//locations//repositories//packages//tags/
Когда я делаю это с ЛЮБЫМ тэгом; даже тот, о существовании которого я знаю, я получаю сообщение об ошибке:
400 неверное имя...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
24 янв 2025, 18:20
Расхождения в агрегировании данных о калориях с использованием HealthConnect API

Последнее сообщение Anonymous « 19 апр 2024, 21:05
Добавлено в форуме Android

Anonymous » 19 апр 2024, 21:05 » в форуме Android

Я использую HealthConnect API для сверки агрегированных данных о калориях с суммированными вручную значениями из отдельных записей. Я реализовал в Котлине функцию, которая извлекает ежедневные записи и агрегированную сумму за каждый день за...

0 Ответы

35 Просмотры

Последнее сообщение Anonymous
19 апр 2024, 21:05
Преобразовать _id (ObjectId) в строку в агрегировании для поиска Spring boot

Последнее сообщение Anonymous « 24 сен 2024, 15:22
Добавлено в форуме JAVA

Anonymous » 24 сен 2024, 15:22 » в форуме JAVA

ЭТО НЕ ВОПРОС
У меня долгое время была проблема с преобразованием objectId в строку при весенней агрегации загрузки, и я не могу найти ничего полезного способ ее решения.
Наконец-то я понял и хотел бы поделиться своим способом с теми, у кого такая...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
24 сен 2024, 15:22
Добавьте столбец даты для каждого файла с помощью Polars при агрегировании нескольких файлов Parquet.

Последнее сообщение Anonymous « 10 ноя 2024, 22:19
Добавлено в форуме Python

Anonymous » 10 ноя 2024, 22:19 » в форуме Python

У меня есть очень большое количество файлов данных Parquet, которые я могу легко объединить и агрегировать с помощью Polars, делая что-то вроде этого (обратите внимание на глобус в имени файла):
(
pl.scan_parquet('data/data-16828*.parquet')...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
10 ноя 2024, 22:19
Список списков списков на карте плоской карты списков

Последнее сообщение Anonymous « 30 дек 2024, 20:36
Добавлено в форуме JAVA

Anonymous » 30 дек 2024, 20:36 » в форуме JAVA

У меня есть списки (штаты) списков (городов) списков (городов). Как мне сгладить средний список (города) и преобразовать его в карту (название штата) карты (название города) списков (городов)?
Этот вопрос может выглядеть аналогично другому вопрос:...

0 Ответы

65 Просмотры

Последнее сообщение Anonymous
30 дек 2024, 20:36

Вернуться в «Python»