Эквивалент панд применяется в pyspark?

Эквивалент панд применяется в pyspark? ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Цитата

Сообщение Anonymous » 28 фев 2026, 05:08

Мне очень хочется иметь возможность запускать сложные функции над целым столбцом фрейма данных Spark, как я это делал бы в Pandas с помощью функции apply.

Например, в Pandas у меня есть функция apply, которая принимает беспорядочный домен, например sub-subdomain.subdomain.facebook.co.nz/somequerystring, и просто выводит facebook.com.

Как бы я сделал это в Spark?

Я просмотрел UDF, но не понимаю, как мне запустить его в одном столбце.

Предположим, у меня есть простая функция, подобная приведенной ниже, где я извлекаю разные биты даты из столбца pandas DF:

Код: Выделить всё

def format_date(row):
year = int(row['Contract_Renewal'][7:])
month = int(row['Contract_Renewal'][4:6])
day = int(row['Contract_Renewal'][:3])
date = datetime.date(year, month, day)
return date-now

В Pandas я бы назвал это так:

Код: Выделить всё

df['days_until'] = df.apply(format_date, axis=1)

Могу ли я добиться того же в Pyspark?

Подробнее здесь: https://stackoverflow.com/questions/610 ... in-pyspark

1772244535

Anonymous

Мне очень хочется иметь возможность запускать сложные функции над целым столбцом фрейма данных Spark, как я это делал бы в Pandas с помощью функции apply.

Например, в Pandas у меня есть функция apply, которая принимает беспорядочный домен, например sub-subdomain.subdomain.facebook.co.nz/somequerystring, и просто выводит facebook.com. 

Как бы я сделал это в Spark?

Я просмотрел UDF, но не понимаю, как мне запустить его в одном столбце.

Предположим, у меня есть простая функция, подобная приведенной ниже, где я извлекаю разные биты даты из столбца pandas DF:

[code]def format_date(row):
year = int(row['Contract_Renewal'][7:])
month = int(row['Contract_Renewal'][4:6])
day = int(row['Contract_Renewal'][:3])
date = datetime.date(year, month, day)
return date-now
[/code]

В Pandas я бы назвал это так:

[code]df['days_until'] = df.apply(format_date, axis=1)
[/code]

Могу ли я добиться того же в Pyspark? 

Подробнее здесь: [url]https://stackoverflow.com/questions/61034251/equivalent-of-pandas-apply-in-pyspark[/url]