Получение коэффициента корреляции для сгруппированного кадра данных Pyspark

Получение коэффициента корреляции для сгруппированного кадра данных Pyspark ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Получение коэффициента корреляции для сгруппированного кадра данных Pyspark

Цитата

Сообщение Anonymous » 25 сен 2024, 08:51

У меня возникли проблемы с реализацией следующей функции.
Я хотел бы применить операцию first groupBy к customer_name и для каждой группы я хотел бы вычислить коэффициент корреляции Пирсона между ценой и единицами измерения. . Итак, окончательный фрейм данных должен иметь два столбца: имя_клиента и корреляция. Я хотел бы использовать библиотеку pyspark.ml.stat.Correlation для расчета коэффициента корреляции. Помогите, пожалуйста, разобраться с кодом. Вот пример.

Код: Выделить всё

spark = SparkSession.builder.appName("CustomFunctionExample").getOrCreate()

# Sample data (replace with your actual data)
data = [
("2021-01-06", "a1", "b1", 8.0, 8.0),
("2021-03-13", "a1", "b1", 1.0, 0.0),
("2021-06-20", "a1", "b5", 2.0, 0.0),
("2021-10-27", "a1", "b5", 8.0, 8.0),
("2021-01-06", "a1", "b2", 2.0, 2.0),
("2021-03-13", "a2", "b2", 9.0, 9.0),
("2021-06-06", "a2", "b4", 3.0, 3.0),
("2021-10-06", "a2", "b4", 8.0, 8.0)
]

schema = ["date", "customer_name", "upc", "price", "units"]
df = spark.createDataFrame(data, schema)

Ожидается фрейм данных pyspark со столбцами customer_name и corr_coeff.

Подробнее здесь: https://stackoverflow.com/questions/782 ... -dataframe

1727243479

Anonymous

У меня возникли проблемы с реализацией следующей функции.
Я хотел бы применить операцию first groupBy к customer_name и для каждой группы я хотел бы вычислить коэффициент корреляции Пирсона между ценой и единицами измерения. . Итак, окончательный фрейм данных должен иметь два столбца: имя_клиента и корреляция. Я хотел бы использовать библиотеку pyspark.ml.stat.Correlation для расчета коэффициента корреляции. Помогите, пожалуйста, разобраться с кодом. Вот пример.
[code]spark = SparkSession.builder.appName("CustomFunctionExample").getOrCreate()

# Sample data (replace with your actual data)
data = [
("2021-01-06", "a1", "b1", 8.0, 8.0),
("2021-03-13", "a1", "b1", 1.0, 0.0),
("2021-06-20", "a1", "b5", 2.0, 0.0),
("2021-10-27", "a1", "b5", 8.0, 8.0),
("2021-01-06", "a1", "b2", 2.0, 2.0),
("2021-03-13", "a2", "b2", 9.0, 9.0),
("2021-06-06", "a2", "b4", 3.0, 3.0),
("2021-10-06", "a2", "b4", 8.0, 8.0)
]

schema = ["date", "customer_name", "upc", "price", "units"]
df = spark.createDataFrame(data, schema)
[/code]
Ожидается фрейм данных pyspark со столбцами customer_name и corr_coeff. 

Подробнее здесь: [url]https://stackoverflow.com/questions/78264530/deriving-correlation-coefficient-on-a-grouped-pyspark-dataframe[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Вычисление коэффициента корреляции данных временных рядов неодинаковой длины

Последнее сообщение Anonymous « 12 ноя 2024, 01:09
Добавлено в форуме Python

Anonymous » 12 ноя 2024, 01:09 » в форуме Python

Предположим, у вас есть такой фрейм данных
data = {'site': ,
'item': ,
'date': ,
'quantity': }
df_sample = pd.DataFrame(data=data)
df_sample.head()

Где у вас есть разные сайты и товары с датой и количеством. Теперь вам нужно вычислить корреляцию...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
12 ноя 2024, 01:09
Вычисление коэффициента корреляции данных временных рядов неодинаковой длины

Последнее сообщение Anonymous « 12 ноя 2024, 07:19
Добавлено в форуме Python

Anonymous » 12 ноя 2024, 07:19 » в форуме Python

Предположим, у вас есть такой фрейм данных
data = {'site': ,
'item': ,
'date': ,
'quantity': }
df_sample = pd.DataFrame(data=data)
df_sample.head()

Где у вас есть разные сайты и товары с датой и количеством. Теперь вам нужно вычислить корреляцию...

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
12 ноя 2024, 07:19
Расчет коэффициента корреляции данных временных рядов неквадратичной длины

Последнее сообщение Anonymous « 05 июн 2025, 15:45
Добавлено в форуме Python

Anonymous » 05 июн 2025, 15:45 » в форуме Python

Предположим, что у вас есть такая рамка данных
data = {'site': ,
'item': ,
'date': ,
'quantity': }
df_sample = pd.DataFrame(data=data)
df_sample.head()

, где у вас есть разные сайты и элементы с датой и количеством. Теперь, что вы хотите...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
05 июн 2025, 15:45
Есть ли способ показать значения коэффициента корреляции на моей тепловой карте?

Последнее сообщение Anonymous « 20 ноя 2024, 03:16
Добавлено в форуме Python

Anonymous » 20 ноя 2024, 03:16 » в форуме Python

Мне интересно, может ли кто-нибудь помочь мне с моими кодами. Я хотел бы отобразить фактические значения коэффициента корреляции на каждом квадрате моего графика. Мой код ниже, похоже, этого не делает. Есть идеи?
Мои коды:
full_cor =...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
20 ноя 2024, 03:16
Почему R² не равен квадрату коэффициента корреляции Пирсона (R²) в моей многомерной регрессионной модели?

Последнее сообщение Anonymous « 21 апр 2025, 09:15
Добавлено в форуме Python

Anonymous » 21 апр 2025, 09:15 » в форуме Python

Я работаю над калиброванием данных датчика качества воздуха с использованием многомерной регрессионной модели (Lasso), с такими предикторами, как сырой PM2,5, влажность и температура. После установки модели я сравнил:
R² from...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
21 апр 2025, 09:15

Вернуться в «Python»