Код: Выделить всё
from pyspark.sql.functions import col
import pyspark.sql.functions as fn
gr = Df2.groupby(['Year'])
df_grouped =
gr.agg(fn.count(col('Student_ID')).alias('total_student_by_year'))
Я хочу агрегировать студентов по годам, подсчитать общее количество студентов по годам и избежать повторения идентификаторов.>
Подробнее здесь: https://stackoverflow.com/questions/464 ... in-pyspark
Мобильная версия