Код: Выделить всё
id | category | col1 | col2
----------------------------
1 | A | 10 | 20
1 | A | 20 | 30
1 | B | 40 | 50
2 | c | 60 | 70
Важно отметить, что я не собираюсь использовать .collect() с .distinct() для получения групп.
Я также знаю, что могу сгруппироватьBy() по двум столбцам и использовать функцию .applyInPandas(). Это работает, но я не могу напрямую сохранить значения в файл таблицы дельты, потому что внутри функции Apply данные представляют собой фрейм данных Pandas, а не фрейм данных Pyspark. Я хочу использовать собственные функции PySpark для сохранения данных.
Подробнее здесь: https://stackoverflow.com/questions/790 ... cting-data