Получение коэффициента корреляции для сгруппированного кадра данных PysparkPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Получение коэффициента корреляции для сгруппированного кадра данных Pyspark

Сообщение Anonymous »

У меня возникли проблемы с реализацией следующей функции.
Я хотел бы применить операцию first groupBy к customer_name и для каждой группы я хотел бы вычислить коэффициент корреляции Пирсона между ценой и единицами измерения. . Итак, окончательный фрейм данных должен иметь два столбца: имя_клиента и корреляция. Я хотел бы использовать библиотеку pyspark.ml.stat.Correlation для расчета коэффициента корреляции. Помогите, пожалуйста, разобраться с кодом. Вот пример.

Код: Выделить всё

spark = SparkSession.builder.appName("CustomFunctionExample").getOrCreate()

# Sample data (replace with your actual data)
data = [
("2021-01-06", "a1", "b1", 8.0, 8.0),
("2021-03-13", "a1", "b1", 1.0, 0.0),
("2021-06-20", "a1", "b5", 2.0, 0.0),
("2021-10-27", "a1", "b5", 8.0, 8.0),
("2021-01-06", "a1", "b2", 2.0, 2.0),
("2021-03-13", "a2", "b2", 9.0, 9.0),
("2021-06-06", "a2", "b4", 3.0, 3.0),
("2021-10-06", "a2", "b4", 8.0, 8.0)
]

schema = ["date", "customer_name", "upc", "price", "units"]
df = spark.createDataFrame(data, schema)
Ожидается фрейм данных pyspark со столбцами customer_name и corr_coeff.

Подробнее здесь: https://stackoverflow.com/questions/782 ... -dataframe
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»