Для отображения его схемы я использую:
Код: Выделить всё
from pyspark.sql.functions import *
df1.printSchema()
Код: Выделить всё
#root
# |-- name: string (nullable = true)
# |-- age: long (nullable = true)
Код: Выделить всё
df2.printSchema()
#root
# |-- name: array (nullable = true)
# |-- gender: integer (nullable = true)
# |-- age: long (nullable = true)
Код: Выделить всё
df1Результатами должна быть таблица (или фрейм данных), примерно такая:
Код: Выделить всё
column df1 df2 diff
name: string array type
gender: N/A integer new column
Код: Выделить всё
ageСтолбец Как это сделать эффективно, если в каждом много столбцов?
Подробнее здесь: https://stackoverflow.com/questions/486 ... ng-pyspark
Мобильная версия