У меня возникли проблемы с реализацией следующей функции.
Я хотел бы применить операцию first groupBy к customer_name и для каждой группы я хотел бы вычислить коэффициент корреляции Пирсона между ценой и единицами измерения. . Итак, окончательный фрейм данных должен иметь два столбца: имя_клиента и корреляция. Я хотел бы использовать библиотеку pyspark.ml.stat.Correlation для расчета коэффициента корреляции. Помогите, пожалуйста, разобраться с кодом. Вот пример.
У меня возникли проблемы с реализацией следующей функции. Я хотел бы применить операцию first groupBy к customer_name и для каждой группы я хотел бы вычислить коэффициент корреляции Пирсона между ценой и единицами измерения. . Итак, окончательный фрейм данных должен иметь два столбца: имя_клиента и корреляция. Я хотел бы использовать библиотеку pyspark.ml.stat.Correlation для расчета коэффициента корреляции. Помогите, пожалуйста, разобраться с кодом. Вот пример. [code]spark = SparkSession.builder.appName("CustomFunctionExample").getOrCreate()
Предположим, что у вас есть такая рамка данных
data = {'site': ,
'item': ,
'date': ,
'quantity': }
df_sample = pd.DataFrame(data=data)
df_sample.head()
, где у вас есть разные сайты и элементы с датой и количеством. Теперь, что вы хотите...
Мне интересно, может ли кто-нибудь помочь мне с моими кодами. Я хотел бы отобразить фактические значения коэффициента корреляции на каждом квадрате моего графика. Мой код ниже, похоже, этого не делает. Есть идеи?
Мои коды:
full_cor =...
Я работаю над калиброванием данных датчика качества воздуха с использованием многомерной регрессионной модели (Lasso), с такими предикторами, как сырой PM2,5, влажность и температура. После установки модели я сравнил:
R² from...