Как подсчитать уникальный идентификатор после groupBy в pyspark

Как подсчитать уникальный идентификатор после groupBy в pyspark ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как подсчитать уникальный идентификатор после groupBy в pyspark

Цитата

Сообщение Anonymous » 15 дек 2025, 18:07

Я использую следующий код для подсчета количества студентов за год. Цель состоит в том, чтобы узнать общее количество студентов за каждый год.

Код: Выделить всё

from pyspark.sql.functions import col
import pyspark.sql.functions as fn
gr = Df2.groupby(['Year'])
df_grouped =
gr.agg(fn.count(col('Student_ID')).alias('total_student_by_year'))

Проблема в том, что я обнаружил, что очень много идентификаторов повторяются, поэтому результат неправильный и огромный.
Я хочу агрегировать студентов по годам, подсчитать общее количество студентов по годам и избежать повторения идентификаторов.>

Подробнее здесь: https://stackoverflow.com/questions/464 ... in-pyspark

1765811265

Anonymous

Я использую следующий код для подсчета количества студентов за год. Цель состоит в том, чтобы узнать общее количество студентов за каждый год.
[code]from pyspark.sql.functions import col
import pyspark.sql.functions as fn
gr = Df2.groupby(['Year'])
df_grouped =
gr.agg(fn.count(col('Student_ID')).alias('total_student_by_year'))
[/code]
Проблема в том, что я обнаружил, что очень много идентификаторов повторяются, поэтому результат неправильный и огромный.
Я хочу агрегировать студентов по годам, подсчитать общее количество студентов по годам и избежать повторения идентификаторов.> 

Подробнее здесь: [url]https://stackoverflow.com/questions/46421677/how-to-count-unique-id-after-groupby-in-pyspark[/url]