Как подсчитать уникальный идентификатор после groupBy в pysparkPython

Программы на Python
Ответить
Anonymous
 Как подсчитать уникальный идентификатор после groupBy в pyspark

Сообщение Anonymous »

Я использую следующий код для подсчета количества студентов за год. Цель состоит в том, чтобы узнать общее количество студентов за каждый год.

Код: Выделить всё

from pyspark.sql.functions import col
import pyspark.sql.functions as fn
gr = Df2.groupby(['Year'])
df_grouped =
gr.agg(fn.count(col('Student_ID')).alias('total_student_by_year'))
Проблема в том, что я обнаружил, что очень много идентификаторов повторяются, поэтому результат неправильный и огромный.
Я хочу агрегировать студентов по годам, подсчитать общее количество студентов по годам и избежать повторения идентификаторов.>

Подробнее здесь: https://stackoverflow.com/questions/464 ... in-pyspark
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»