Как использовать сложные классы с искровыми udfs

Как использовать сложные классы с искровыми udfs ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как использовать сложные классы с искровыми udfs

Цитата

Сообщение Anonymous » 25 сен 2024, 13:04

Контекст
У меня есть работа, которая генерирует CSV-файл на основе некоторых данных из озера данных моей компании. Это задание запускается один раз в день с некоторой предопределенной конфигурацией. Это задание реализуется с использованием Spark и Python и выполняется в конвейере Airflow.
CSV позже загружается конкретному клиенту.
Случай< /h2>
Теперь мы хотим привлечь дополнительных клиентов (на данный момент только одного, но в идеале в будущем их будет несколько).
Я думал о том, чтобы настроить конфигурацию и свойства каждого клиента в файле yml и загрузить их в задание на основе входного параметра, который будет определять имя клиента.
Проблема
Чтобы сгенерировать несколько столбцов в окончательном CSV-файле, мне понадобится код Python для разрешения некоторых условий, чтобы получить правильное значение для каждого клиента (значение будет определено в файле конфигурации для каждого клиента).
Однако кажется, что udfs Spark может обрабатывать только данные столбцов, и я не могу передавать туда сложные структуры.
ПримерПредставим, что у меня есть следующее:

Файл конфигурации. Например, для customer-A.yml:

Код: Выделить всё

x_enabled: True
start_date_x: '01-01-2024'
y_enabled: False
start_date_y: '01-01-2022'

values:
x: 'value-x'
y: 'value-y'

и customer-B.yml должны содержать одинаковые атрибуты, но разные значения.

Модель . В идеале я хотел бы сделать что-то вроде следующего (простой пример псевдокода модели):

Код: Выделить всё

class Customer:
@udf(returnType=StringType())
def calculate_value(self) -> str:
# some conditions and logic using the properties and values defined in the inherited classes.

class CustomerA(Customer):
x_enabled: ...
start_date_x: ...
y_enabled: ...
start_date_y: ...
values: ...

но оказывается, что я не могу, поскольку udfs должны быть статическими методами.
Вопрос
Один из вариантов — передать все параметры, преобразованные с помощью функцииlit(), но я считаю это довольно некрасивым и не масштабируемым (на случай, если мои условия станут более сложными). Есть ли лучший подход?

Подробнее здесь: https://stackoverflow.com/questions/790 ... spark-udfs

1727258646

Anonymous

values:
x: 'value-x'
y: 'value-y'
[/code]
и customer-B.yml должны содержать одинаковые атрибуты, но разные значения.
[list]
[*]Модель . В идеале я хотел бы сделать что-то вроде следующего (простой пример псевдокода модели):
[/list]
[code]class Customer:
@udf(returnType=StringType())
def calculate_value(self) -> str:
# some conditions and logic using the properties and values defined in the inherited classes.

class CustomerA(Customer):
x_enabled: ...
start_date_x: ...
y_enabled: ...
start_date_y: ...
values: ...
[/code]
но оказывается, что я не могу, поскольку udfs должны быть статическими методами.
Вопрос
Один из вариантов — передать все параметры, преобразованные с помощью функцииlit(), но я считаю это довольно некрасивым и не масштабируемым (на случай, если мои условия станут более сложными). Есть ли лучший подход?

Подробнее здесь: [url]https://stackoverflow.com/questions/79021931/how-to-use-complex-classes-with-spark-udfs[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как использовать сложные классы с искровыми udfs

Последнее сообщение Anonymous « 25 сен 2024, 11:55
Добавлено в форуме Python

Anonymous » 25 сен 2024, 11:55 » в форуме Python

Контекст
У меня есть работа, которая генерирует CSV-файл на основе некоторых данных из озера данных моей компании. Это задание запускается один раз в день с некоторой предопределенной конфигурацией. Это задание реализуется с использованием Spark и...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
25 сен 2024, 11:55
Интегрирование Python (с Xlwings) в Excel для европейской цены опциона - обработка вызовов API и Excel UDFS

Последнее сообщение Anonymous « 20 фев 2025, 11:30
Добавлено в форуме Python

Anonymous » 20 фев 2025, 11:30 » в форуме Python

Я работаю над проектом по интеграции Python с Excel с использованием XlWings для создания европейской модели ценообразования опций (с помощью формулы Black-Scholes).
**
Основная цель-: **
Используйте Excel в качестве пользовательского интерфейса для...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
20 фев 2025, 11:30
Python Как преобразовать сложные вложенные классы в словарь

Последнее сообщение Anonymous « 12 фев 2025, 07:57
Добавлено в форуме Python

Anonymous » 12 фев 2025, 07:57 » в форуме Python

У меня есть пара классов, созданные базовыми типами, такими как STR, Int, Float, List, DICT, но также и другие классы, которые содержат аналогичные типы. По сути, у меня вложенные слои объектов. Он преобразуется таким образом, поэтому данные могут...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
12 фев 2025, 07:57
Python Как преобразовать сложные вложенные классы в словарь

Последнее сообщение Anonymous « 12 фев 2025, 08:20
Добавлено в форуме Python

Anonymous » 12 фев 2025, 08:20 » в форуме Python

У меня есть пара классов, созданные базовыми типами, такими как STR, Int, Float, List, DICT, но также и другие классы, которые содержат аналогичные типы. По сути, у меня вложенные слои объектов. Он преобразуется таким образом, поэтому данные могут...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
12 фев 2025, 08:20
Python Как преобразовать сложные вложенные классы в словарь

Последнее сообщение Anonymous « 12 фев 2025, 21:56
Добавлено в форуме Python

Anonymous » 12 фев 2025, 21:56 » в форуме Python

У меня есть пара классов, созданные базовыми типами, такими как STR, Int, Float, List, DICT, но также и другие классы, которые содержат аналогичные типы. По сути, у меня вложенные слои объектов. Он преобразуется таким образом, поэтому данные могут...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
12 фев 2025, 21:56

Вернуться в «Python»