Как применить функцию описать после группировки DataFrame Pyspark? - Цифровое Кемерово

Как применить функцию описать после группировки DataFrame Pyspark? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как применить функцию описать после группировки DataFrame Pyspark?

Цитата

Сообщение Anonymous » 26 июл 2025, 16:38

Я хочу найти самый чистый способ применения функции Descript < /code> к сгруппированному DataFrame (этот вопрос также может вырасти, чтобы применить любую функцию DF к сгруппированному DF) < /p>

Я тестировал сгруппированные агрегатные панды UDF без удачи. Всегда есть способ сделать это, передавая каждую статистику внутри функции agg < /code>, но это не правильный путь. < /P>

Если у нас есть пример DataFrame: < /p>

df = spark.createDataFrame(
[(1, 1.0), (1, 2.0), (2, 3.0), (2, 5.0), (2, 10.0)],
("id", "v"))
< /code>

Идея состоит в том, чтобы сделать что-то похожее на Pandas: < /p>

df.groupby("id").describe()
< /code>

Где результат будет: < /p>

v
count mean std min 25% 50% 75% max
id
1 2.0 1.5 0.707107 1.0 1.25 1.5 1.75 2.0
2 3.0 6.0 3.605551 3.0 4.00 5.0 7.50 10.0
< /code>

thanks.

Подробнее здесь: https://stackoverflow.com/questions/570 ... -dataframe

Реклама

1753537096

Anonymous

 Я хочу найти самый чистый способ применения функции Descript < /code> к сгруппированному DataFrame (этот вопрос также может вырасти, чтобы применить любую функцию DF к сгруппированному DF) < /p>

Я тестировал сгруппированные агрегатные панды UDF без удачи. Всегда есть способ сделать это, передавая каждую статистику внутри функции agg < /code>, но это не правильный путь. < /P>

Если у нас есть пример DataFrame: < /p>

df = spark.createDataFrame(
[(1, 1.0), (1, 2.0), (2, 3.0), (2, 5.0), (2, 10.0)],
("id", "v"))
< /code>

Идея состоит в том, чтобы сделать что-то похожее на Pandas: < /p>

df.groupby("id").describe()
< /code>

Где результат будет: < /p>

                                                   v
count mean     std    min   25%    50%  75%   max
id
1   2.0   1.5   0.707107  1.0   1.25   1.5  1.75  2.0
2   3.0   6.0   3.605551  3.0   4.00   5.0  7.50  10.0
< /code>

thanks.
 

Подробнее здесь: [url]https://stackoverflow.com/questions/57083814/how-to-apply-the-describe-function-after-grouping-a-pyspark-dataframe[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

В чем разница между пандами «описать» и «описать()»?

Последнее сообщение Anonymous « 14 май 2024, 23:26
Добавлено в форуме Python

Anonymous » 14 май 2024, 23:26 » в форуме Python

Когда я вызываю функцию описания без круглых скобок в своем блокноте Jupyter, результаты различаются, однако я ожидаю сообщения об ошибке для вызова без скобок.
При поиске я нашел только статьи об описании() , но ничего об описании. Я чувствую себя...

0 Ответы

34 Просмотры

Последнее сообщение Anonymous
14 май 2024, 23:26
Как я могу применить вложенную DataFrame Pyspark в качестве сопоставления с другим DataFrame?

Последнее сообщение Anonymous « 01 апр 2025, 21:35
Добавлено в форуме Python

Anonymous » 01 апр 2025, 21:35 » в форуме Python

У меня есть json, как это:
{ main :{ honda :1, toyota :2, BMW :5, Fiat :4}}

Я импортирует в pyspark, как это:
car_map = spark.read.json('s3_path/car_map.json')

Теперь у меня есть DataFrame:

дал существующий DataFrame:

.data =

df =...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
01 апр 2025, 21:35
Как я могу применить вложенную DataFrame Pyspark в качестве сопоставления с другим DataFrame?

Последнее сообщение Anonymous « 02 апр 2025, 11:38
Добавлено в форуме Python

Anonymous » 02 апр 2025, 11:38 » в форуме Python

У меня есть json, как это:
{ main :{ honda :1, toyota :2, BMW :5, Fiat :4}}

Я импортирует в pyspark, как это:
car_map = spark.read.json('s3_path/car_map.json')

Теперь у меня есть DataFrame:

дал существующий DataFrame:

.data =

df =...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
02 апр 2025, 11:38
В пандах группировки я хочу взять только максимальный объект второго столбца группировки [дубликат]

Последнее сообщение Anonymous « 06 ноя 2023, 17:56
Добавлено в форуме Python

Anonymous » 06 ноя 2023, 17:56 » в форуме Python

У меня есть набор данных онлайн-заказов. Каждая запись имеет значение, адрес, категорию, состояние и т. д. Я хочу найти категорию с наибольшим доходом в каждом штате, поэтому мне нужно сгруппировать по штату и категории по стоимости. Итак, у меня...

0 Ответы

99 Просмотры

Последнее сообщение Anonymous
06 ноя 2023, 17:56
POLARS GROUP_BY + Описать: вернуть все столбцы в виде единичного DataFrame

Последнее сообщение Anonymous « 14 мар 2025, 19:44
Добавлено в форуме Python

Anonymous » 14 мар 2025, 19:44 » в форуме Python

Я медленно перехожу на поляры из Пандса, и я обнаружил, что в некоторых случаях синтаксис Polars хитрый.
Я ищу помощь в выполнении Group_by , за которым следует описать , используя меньший (или более читаемый) код.from io import BytesIO
import...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
14 мар 2025, 19:44

Вернуться в «Python»

Programmiererforum