У меня есть фрейм данных Spark со строковым столбцом, который имеет массив, подобный приведенной ниже структуре:
[
{
"_t":"UniqueLmiCoverageCalculation",
"CoverageId":"23aa2c55b498",
"Operation":"Add",
"Deductible":{
"_id":"d61e90636c66",
"Value":"1000",
"Percent":"0.15"
},
"Subscription":{
"LoadingFee":"0",
"DerivedLmi":"8000.00",
"PricingLmi":"8000.00",
},
"Product":{
"DaFix":"6.98",
"DaPercentage":"0.14",
"ProfitPercentage":"0.36"
}
},
{
"_t":"UniqueLmiCoverageCalculation",
"CoverageId":"23aa2c55b498",
"Operation":"Add",
"Deductible":{
"_id":"d61e90636c66",
"Value":"1000",
"Percent":"0.15"
},
"Subscription":{
"LoadingFee":"0",
"DerivedLmi":"8000.00",
"PricingLmi":"8000.00",
},
"Product":{
"DaFix":"6.98",
"DaPercentage":"0.14",
"ProfitPercentage":"0.36"
}
}
]
Проблема в том, что эта схема json не является статической, поэтому в моем фрейме данных может быть другая строка с другими полями. Как мне преобразовать этот столбец в тип массива с учетом всех схем?
Мне удалось выполнить преобразование с помощью кода ниже, но он учитывает только первую строку:
def explode_array(df, columns_to_explode):
for column in columns_to_explode:
json_sample = df.select(column).head()[0]
inferred_schema = schema_of_json(json_sample)
df = df.withColumn(f"{column}", from_json(col(column), inferred_schema))
df = df.withColumn(column, explode(col(column)))
return df
Подробнее здесь: https://stackoverflow.com/questions/792 ... g-in-spark
Как динамически применять типизацию столбцов массива в Spark ⇐ Python
Программы на Python
-
Anonymous
1733521266
Anonymous
У меня есть фрейм данных Spark со строковым столбцом, который имеет массив, подобный приведенной ниже структуре:
[
{
"_t":"UniqueLmiCoverageCalculation",
"CoverageId":"23aa2c55b498",
"Operation":"Add",
"Deductible":{
"_id":"d61e90636c66",
"Value":"1000",
"Percent":"0.15"
},
"Subscription":{
"LoadingFee":"0",
"DerivedLmi":"8000.00",
"PricingLmi":"8000.00",
},
"Product":{
"DaFix":"6.98",
"DaPercentage":"0.14",
"ProfitPercentage":"0.36"
}
},
{
"_t":"UniqueLmiCoverageCalculation",
"CoverageId":"23aa2c55b498",
"Operation":"Add",
"Deductible":{
"_id":"d61e90636c66",
"Value":"1000",
"Percent":"0.15"
},
"Subscription":{
"LoadingFee":"0",
"DerivedLmi":"8000.00",
"PricingLmi":"8000.00",
},
"Product":{
"DaFix":"6.98",
"DaPercentage":"0.14",
"ProfitPercentage":"0.36"
}
}
]
Проблема в том, что эта схема json не является статической, поэтому в моем фрейме данных может быть другая строка с другими полями. Как мне преобразовать этот столбец в тип массива с учетом всех схем?
Мне удалось выполнить преобразование с помощью кода ниже, но он учитывает только первую строку:
def explode_array(df, columns_to_explode):
for column in columns_to_explode:
json_sample = df.select(column).head()[0]
inferred_schema = schema_of_json(json_sample)
df = df.withColumn(f"{column}", from_json(col(column), inferred_schema))
df = df.withColumn(column, explode(col(column)))
return df
Подробнее здесь: [url]https://stackoverflow.com/questions/79259456/how-to-dynamically-apply-array-column-typing-in-spark[/url]
Ответить
1 сообщение
• Страница 1 из 1
Перейти
- Кемерово-IT
- ↳ Javascript
- ↳ C#
- ↳ JAVA
- ↳ Elasticsearch aggregation
- ↳ Python
- ↳ Php
- ↳ Android
- ↳ Html
- ↳ Jquery
- ↳ C++
- ↳ IOS
- ↳ CSS
- ↳ Excel
- ↳ Linux
- ↳ Apache
- ↳ MySql
- Детский мир
- Для души
- ↳ Музыкальные инструменты даром
- ↳ Печатная продукция даром
- Внешняя красота и здоровье
- ↳ Одежда и обувь для взрослых даром
- ↳ Товары для здоровья
- ↳ Физкультура и спорт
- Техника - даром!
- ↳ Автомобилистам
- ↳ Компьютерная техника
- ↳ Плиты: газовые и электрические
- ↳ Холодильники
- ↳ Стиральные машины
- ↳ Телевизоры
- ↳ Телефоны, смартфоны, плашеты
- ↳ Швейные машинки
- ↳ Прочая электроника и техника
- ↳ Фототехника
- Ремонт и интерьер
- ↳ Стройматериалы, инструмент
- ↳ Мебель и предметы интерьера даром
- ↳ Cантехника
- Другие темы
- ↳ Разное даром
- ↳ Давай меняться!
- ↳ Отдам\возьму за копеечку
- ↳ Работа и подработка в Кемерове
- ↳ Давай с тобой поговорим...
Мобильная версия