Обработка каждой группы кадров данных PySpark отдельно без сбора данных.Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Обработка каждой группы кадров данных PySpark отдельно без сбора данных.

Сообщение Anonymous »

Рассмотрим следующий пример фрейма данных:

Код: Выделить всё

id | category | col1 | col2
----------------------------
1  | A        | 10   | 20
1  | A        | 20   | 30
1  | B        | 40   | 50
2  | c        | 60   | 70
Столбцы «id» и «category» являются первичными ключами в этом кадре данных. Я хочу обработать каждую группу, созданную комбинацией этих двух столбцов, применить некоторые преобразования, а затем сохранить результат каждой группы в отдельной таблице дельты. В приведенном примере будут получены 3 дельта-таблицы.
Важно отметить, что я не собираюсь использовать .collect() с .distinct() для получения групп.
Я также знаю, что могу сгруппироватьBy() по двум столбцам и использовать функцию .applyInPandas(). Это работает, но я не могу напрямую сохранить значения в файл таблицы дельты, потому что внутри функции Apply данные представляют собой фрейм данных Pandas, а не фрейм данных Pyspark. Я хочу использовать собственные функции PySpark для сохранения данных.

Подробнее здесь: https://stackoverflow.com/questions/790 ... cting-data
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»