Как применить функцию описать после группировки DataFrame Pyspark?Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Как применить функцию описать после группировки DataFrame Pyspark?

Сообщение Anonymous »

Я хочу найти самый чистый способ применения функции Descript < /code> к сгруппированному DataFrame (этот вопрос также может вырасти, чтобы применить любую функцию DF к сгруппированному DF) < /p>

Я тестировал сгруппированные агрегатные панды UDF без удачи. Всегда есть способ сделать это, передавая каждую статистику внутри функции agg < /code>, но это не правильный путь. < /P>

Если у нас есть пример DataFrame: < /p>

df = spark.createDataFrame(
[(1, 1.0), (1, 2.0), (2, 3.0), (2, 5.0), (2, 10.0)],
("id", "v"))
< /code>

Идея состоит в том, чтобы сделать что-то похожее на Pandas: < /p>

df.groupby("id").describe()
< /code>

Где результат будет: < /p>

v
count mean std min 25% 50% 75% max
id
1 2.0 1.5 0.707107 1.0 1.25 1.5 1.75 2.0
2 3.0 6.0 3.605551 3.0 4.00 5.0 7.50 10.0
< /code>

thanks.


Подробнее здесь: https://stackoverflow.com/questions/570 ... -dataframe
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»