Обработка каждой группы кадров данных PySpark отдельно без сбора данных.

Обработка каждой группы кадров данных PySpark отдельно без сбора данных. ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Обработка каждой группы кадров данных PySpark отдельно без сбора данных.

Цитата

Сообщение Anonymous » 23 сен 2024, 03:19

Рассмотрим следующий пример фрейма данных:

Код: Выделить всё

id | category | col1 | col2
----------------------------
1  | A        | 10   | 20
1  | A        | 20   | 30
1  | B        | 40   | 50
2  | c        | 60   | 70

Столбцы «id» и «category» являются первичными ключами в этом кадре данных. Я хочу обработать каждую группу, созданную комбинацией этих двух столбцов, применить некоторые преобразования, а затем сохранить результат каждой группы в отдельной таблице дельты. В приведенном примере будут получены 3 дельта-таблицы.
Важно отметить, что я не собираюсь использовать .collect() с .distinct() для получения групп.
Я также знаю, что могу сгруппироватьBy() по двум столбцам и использовать функцию .applyInPandas(). Это работает, но я не могу напрямую сохранить значения в файл таблицы дельты, потому что внутри функции Apply данные представляют собой фрейм данных Pandas, а не фрейм данных Pyspark. Я хочу использовать собственные функции PySpark для сохранения данных.

Подробнее здесь: https://stackoverflow.com/questions/790 ... cting-data

1727050773

Anonymous

Рассмотрим следующий пример фрейма данных:
[code]id | category | col1 | col2
----------------------------
1  | A        | 10   | 20
1  | A        | 20   | 30
1  | B        | 40   | 50
2  | c        | 60   | 70
[/code]
Столбцы «id» и «category» являются первичными ключами в этом кадре данных. Я хочу обработать каждую группу, созданную комбинацией этих двух столбцов, применить некоторые преобразования, а затем сохранить результат каждой группы в отдельной таблице дельты. В приведенном примере будут получены 3 дельта-таблицы.
Важно отметить, что я не собираюсь использовать .collect() с .distinct() для получения групп.
Я также знаю, что могу сгруппироватьBy() по двум столбцам и использовать функцию .applyInPandas(). Это работает, но я не могу напрямую сохранить значения в файл таблицы дельты, потому что внутри функции Apply данные представляют собой фрейм данных Pandas, а не фрейм данных Pyspark. Я хочу использовать собственные функции PySpark для сохранения данных. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79012834/processing-each-pyspark-dataframe-groups-separately-without-collecting-data[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Pandas Groupby Несколько столбцов, агрегируйте некоторые столбцы, добавьте столбец каждой группы каждой группы

Последнее сообщение Anonymous « 19 фев 2025, 12:51
Добавлено в форуме Python

Anonymous » 19 фев 2025, 12:51 » в форуме Python

Данные, с которыми я работаю:
data (140631115432592), ndim: 2, size: 3947910, shape: (232230, 17)
VIN (1-10) object
County object
City object
State object
Postal Code float64
Model Year int64
Make object
Model object
Electric Vehicle Type object...

0 Ответы

32 Просмотры

Последнее сообщение Anonymous
19 фев 2025, 12:51
Twilio – как воспроизводить музыку между завершением сбора и завершением действия сбора – ожидание запуска тяжелого API?

Последнее сообщение Anonymous « 14 ноя 2024, 00:14
Добавлено в форуме Php

Anonymous » 14 ноя 2024, 00:14 » в форуме Php

Я пытаюсь перехватить голосовой ввод пользователя, отправить его в API и произнести ответ API — по сути, это происходит в цикле, пока пользователь не повесит трубку. К сожалению, это тяжелый API, поэтому ответ занимает 4–6 секунд, что приводит к...

0 Ответы

56 Просмотры

Последнее сообщение Anonymous
14 ноя 2024, 00:14
Как я могу фильтровать группы, сравнивая первое значение каждой группы и последнее значение cummax, которое изменяется у

Последнее сообщение Anonymous « 26 июн 2024, 13:32
Добавлено в форуме Python

Anonymous » 26 июн 2024, 13:32 » в форуме Python

Мой фрейм данных:
import pandas as pd
df = pd.DataFrame(
{
'group': ,
'num':
}
)

Ожидаемый результат — три группы сверху df
group num
0 a 1
1 a 2
2 a 3

group num
6 c 13
7 c 2
8 c 4

group num
12 e 10
13 e 20
14 e 30

Логика:
Я хочу сравнить...

0 Ответы

55 Просмотры

Последнее сообщение Anonymous
26 июн 2024, 13:32
Как лучше всего фильтровать группы, условно проверяя только значения первой строки каждой группы?

Последнее сообщение Anonymous « 17 сен 2024, 09:11
Добавлено в форуме Python

Anonymous » 17 сен 2024, 09:11 » в форуме Python

Это мой фрейм данных:
import pandas as pd
df = pd.DataFrame(
{
'group': list('xxxxyyy'),
'open': ,
'close': ,
'stop':
}
)

Ожидаемый результат — возврат группы x на основе столбца group:
group open close stop
0 x 100 105 104
1 x 150 150 104
2 x...

0 Ответы

30 Просмотры

Последнее сообщение Anonymous
17 сен 2024, 09:11
Возьмите элементы из каждой группы в Polars, где группы неравномерны.

Последнее сообщение Anonymous « 01 окт 2024, 12:51
Добавлено в форуме Python

Anonymous » 01 окт 2024, 12:51 » в форуме Python

Как взять первые n элементов группы, где n > G и G = количество элементов в группе?
Например,
import polars as pl
df = pl.DataFrame(dict(x= , y= ))
df.group_by( x ).agg(pl.all().gather( ))

Приведенный выше пример возвращает ошибку...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
01 окт 2024, 12:51

Вернуться в «Python»