Как динамически применять типизацию столбцов массива в SparkPython

Программы на Python
Ответить
Anonymous
 Как динамически применять типизацию столбцов массива в Spark

Сообщение Anonymous »

У меня есть фрейм данных Spark со строковым столбцом, который имеет массив, подобный приведенной ниже структуре:
[
{
"_t":"UniqueLmiCoverageCalculation",
"CoverageId":"23aa2c55b498",
"Operation":"Add",
"Deductible":{
"_id":"d61e90636c66",
"Value":"1000",
"Percent":"0.15"
},
"Subscription":{
"LoadingFee":"0",
"DerivedLmi":"8000.00",
"PricingLmi":"8000.00",
},
"Product":{
"DaFix":"6.98",
"DaPercentage":"0.14",
"ProfitPercentage":"0.36"
}
},
{
"_t":"UniqueLmiCoverageCalculation",
"CoverageId":"23aa2c55b498",
"Operation":"Add",
"Deductible":{
"_id":"d61e90636c66",
"Value":"1000",
"Percent":"0.15"
},
"Subscription":{
"LoadingFee":"0",
"DerivedLmi":"8000.00",
"PricingLmi":"8000.00",
},
"Product":{
"DaFix":"6.98",
"DaPercentage":"0.14",
"ProfitPercentage":"0.36"
}
}
]

Проблема в том, что эта схема json не является статической, поэтому в моем фрейме данных может быть другая строка с другими полями. Как мне преобразовать этот столбец в тип массива с учетом всех схем?
Мне удалось выполнить преобразование с помощью кода ниже, но он учитывает только первую строку:
def explode_array(df, columns_to_explode):

for column in columns_to_explode:

json_sample = df.select(column).head()[0]
inferred_schema = schema_of_json(json_sample)

df = df.withColumn(f"{column}", from_json(col(column), inferred_schema))
df = df.withColumn(column, explode(col(column)))

return df


Подробнее здесь: https://stackoverflow.com/questions/792 ... g-in-spark
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»