Как динамически применять типизацию столбцов массива в Spark

Как динамически применять типизацию столбцов массива в Spark ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как динамически применять типизацию столбцов массива в Spark

Цитата

Сообщение Anonymous » 07 дек 2024, 00:41

У меня есть фрейм данных Spark со строковым столбцом, который имеет массив, подобный приведенной ниже структуре:
[
{
"_t":"UniqueLmiCoverageCalculation",
"CoverageId":"23aa2c55b498",
"Operation":"Add",
"Deductible":{
"_id":"d61e90636c66",
"Value":"1000",
"Percent":"0.15"
},
"Subscription":{
"LoadingFee":"0",
"DerivedLmi":"8000.00",
"PricingLmi":"8000.00",
},
"Product":{
"DaFix":"6.98",
"DaPercentage":"0.14",
"ProfitPercentage":"0.36"
}
},
{
"_t":"UniqueLmiCoverageCalculation",
"CoverageId":"23aa2c55b498",
"Operation":"Add",
"Deductible":{
"_id":"d61e90636c66",
"Value":"1000",
"Percent":"0.15"
},
"Subscription":{
"LoadingFee":"0",
"DerivedLmi":"8000.00",
"PricingLmi":"8000.00",
},
"Product":{
"DaFix":"6.98",
"DaPercentage":"0.14",
"ProfitPercentage":"0.36"
}
}
]

Проблема в том, что эта схема json не является статической, поэтому в моем фрейме данных может быть другая строка с другими полями. Как мне преобразовать этот столбец в тип массива с учетом всех схем?
Мне удалось выполнить преобразование с помощью кода ниже, но он учитывает только первую строку:
def explode_array(df, columns_to_explode):

for column in columns_to_explode:

json_sample = df.select(column).head()[0]
inferred_schema = schema_of_json(json_sample)

df = df.withColumn(f"{column}", from_json(col(column), inferred_schema))
df = df.withColumn(column, explode(col(column)))

return df

Подробнее здесь: https://stackoverflow.com/questions/792 ... g-in-spark

1733521266

Anonymous

У меня есть фрейм данных Spark со строковым столбцом, который имеет массив, подобный приведенной ниже структуре:
  [
{
"_t":"UniqueLmiCoverageCalculation",
"CoverageId":"23aa2c55b498",
"Operation":"Add",
"Deductible":{
"_id":"d61e90636c66",
"Value":"1000",
"Percent":"0.15"
},
"Subscription":{
"LoadingFee":"0",
"DerivedLmi":"8000.00",
"PricingLmi":"8000.00",
},
"Product":{
"DaFix":"6.98",
"DaPercentage":"0.14",
"ProfitPercentage":"0.36"
}
},
{
"_t":"UniqueLmiCoverageCalculation",
"CoverageId":"23aa2c55b498",
"Operation":"Add",
"Deductible":{
"_id":"d61e90636c66",
"Value":"1000",
"Percent":"0.15"
},
"Subscription":{
"LoadingFee":"0",
"DerivedLmi":"8000.00",
"PricingLmi":"8000.00",
},
"Product":{
"DaFix":"6.98",
"DaPercentage":"0.14",
"ProfitPercentage":"0.36"
}
}
]

Проблема в том, что эта схема json не является статической, поэтому в моем фрейме данных может быть другая строка с другими полями. Как мне преобразовать этот столбец в тип массива с учетом всех схем?
Мне удалось выполнить преобразование с помощью кода ниже, но он учитывает только первую строку:
def explode_array(df, columns_to_explode):

for column in columns_to_explode:

json_sample = df.select(column).head()[0]
inferred_schema = schema_of_json(json_sample)

df = df.withColumn(f"{column}", from_json(col(column), inferred_schema))
df = df.withColumn(column, explode(col(column)))

return df
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79259456/how-to-dynamically-apply-array-column-typing-in-spark[/url]