Эквивалент панд применяется в pyspark?Python

Программы на Python
Ответить
Anonymous
 Эквивалент панд применяется в pyspark?

Сообщение Anonymous »

Мне очень хочется иметь возможность запускать сложные функции над целым столбцом фрейма данных Spark, как я это делал бы в Pandas с помощью функции apply.

Например, в Pandas у меня есть функция apply, которая принимает беспорядочный домен, например sub-subdomain.subdomain.facebook.co.nz/somequerystring, и просто выводит facebook.com.

Как бы я сделал это в Spark?

Я просмотрел UDF, но не понимаю, как мне запустить его в одном столбце.

Предположим, у меня есть простая функция, подобная приведенной ниже, где я извлекаю разные биты даты из столбца pandas DF:

Код: Выделить всё

def format_date(row):
year = int(row['Contract_Renewal'][7:])
month = int(row['Contract_Renewal'][4:6])
day = int(row['Contract_Renewal'][:3])
date = datetime.date(year, month, day)
return date-now
В Pandas я бы назвал это так:

Код: Выделить всё

df['days_until'] = df.apply(format_date, axis=1)
Могу ли я добиться того же в Pyspark?

Подробнее здесь: https://stackoverflow.com/questions/610 ... in-pyspark
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»