Например, в Pandas у меня есть функция apply, которая принимает беспорядочный домен, например sub-subdomain.subdomain.facebook.co.nz/somequerystring, и просто выводит facebook.com.
Как бы я сделал это в Spark?
Я просмотрел UDF, но не понимаю, как мне запустить его в одном столбце.
Предположим, у меня есть простая функция, подобная приведенной ниже, где я извлекаю разные биты даты из столбца pandas DF:
Код: Выделить всё
def format_date(row):
year = int(row['Contract_Renewal'][7:])
month = int(row['Contract_Renewal'][4:6])
day = int(row['Contract_Renewal'][:3])
date = datetime.date(year, month, day)
return date-now
Код: Выделить всё
df['days_until'] = df.apply(format_date, axis=1)
Подробнее здесь: https://stackoverflow.com/questions/610 ... in-pyspark
Мобильная версия