У меня есть несколько кадров данных PySpark, которые необходимо объединить или объединить для создания окончательного кадра данных со следующей структурой:
Ввод:
У меня есть несколько кадров данных PySpark, которые необходимо объединить или объединить для создания окончательного кадра данных со следующей структурой: Ввод: [code]df1 :[colA, colB, colC, avg_salary_y2020] df2 :[colA, colB, colC, avg_salary_y2021] df3 :[colA, colB, colC, avg_salary_y2022] [/code] Выход: [code]df_final: [colA, colB, colC, avg_salary_y2020, avg_salary_y2021, avg_salary_y2022] [/code] Есть ли элегантное решение этой задачи?
У меня есть несколько кадров данных PySpark, которые необходимо объединить или объединить для создания окончательного кадра данных со следующей структурой:
Ввод:
df1 :
df2 :
df3 :
У меня есть несколько кадров данных PySpark, которые необходимо объединить или объединить для создания окончательного кадра данных со следующей структурой:
Ввод:
df1 :
df2 :
df3 :
Я хочу провести модульное тестирование своих скриптов AWS Glue. Я использую Python и Pyspark. Я хочу объединить функции модульного тестирования, использующие динамические фреймы и фреймы данных. Мне не нужно взаимодействовать с AWS или передавать...