Использование внешней библиотеки в ошибке выбора PySpark UDF

Использование внешней библиотеки в ошибке выбора PySpark UDF ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Использование внешней библиотеки в ошибке выбора PySpark UDF

Цитата

Сообщение Anonymous » 26 дек 2024, 23:16

Я пробую следующий код:

Код: Выделить всё

import pandas as pd
from pymorphy2 import MorphAnalyzer
from pyspark.sql import SparkSession
from pyspark.sql import types as T
from pyspark.sql import functions as F

spark = SparkSession.builder.appName("udf").getOrCreate()

def gender(s):
m = MorphAnalyzer()
return m.parse(s)[0].tag.gender

gen = F.udf(gender, T.StringType())

df = spark.createDataFrame(pd.DataFrame({"name": ["кирилл", "вавила"]}))

df.select(gen("name").alias("gender")).show()

и более или менее ожидаемо получаю следующее сообщение об ошибке:

Код: Выделить всё

ERROR Executor: Exception in task 2.0 in stage 29.0 (TID 151)
net.razorvine.pickle.PickleException: expected zero arguments for construction of ClassDict (for pyspark.cloudpickle.cloudpickle._make_skeleton_class). This happens when an unsupported/unregistered class is being unpickled that requires construction arguments. Fix it by registering a custom IObjectConstructor for this class.
at net.razorvine.pickle.objects.ClassDictConstructor.construct(ClassDictConstructor.java:23)
at net.razorvine.pickle.Unpickler.load_reduce(Unpickler.java:759)
at net.razorvine.pickle.Unpickler.dispatch(Unpickler.java:199)

Какой самый простой способ обойти ошибку (если она есть)?

Подробнее здесь: https://stackoverflow.com/questions/739 ... ckle-error

1735244160

Anonymous

Я пробую следующий код:
[code]import pandas as pd
from pymorphy2 import MorphAnalyzer
from pyspark.sql import SparkSession
from pyspark.sql import types as T
from pyspark.sql import functions as F

spark = SparkSession.builder.appName("udf").getOrCreate()

def gender(s):
m = MorphAnalyzer()
return m.parse(s)[0].tag.gender

gen = F.udf(gender, T.StringType())

df = spark.createDataFrame(pd.DataFrame({"name": ["кирилл", "вавила"]}))

df.select(gen("name").alias("gender")).show()
[/code]
и более или менее ожидаемо получаю следующее сообщение об ошибке:
[code]ERROR Executor: Exception in task 2.0 in stage 29.0 (TID 151)
net.razorvine.pickle.PickleException: expected zero arguments for construction of ClassDict (for pyspark.cloudpickle.cloudpickle._make_skeleton_class). This happens when an unsupported/unregistered class is being unpickled that requires construction arguments. Fix it by registering a custom IObjectConstructor for this class.
at net.razorvine.pickle.objects.ClassDictConstructor.construct(ClassDictConstructor.java:23)
at net.razorvine.pickle.Unpickler.load_reduce(Unpickler.java:759)
at net.razorvine.pickle.Unpickler.dispatch(Unpickler.java:199)
[/code]
Какой самый простой способ обойти ошибку (если она есть)? 

Подробнее здесь: [url]https://stackoverflow.com/questions/73982234/using-external-library-in-pyspark-udf-pickle-error[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Встроенные функции PySpark для удаления UDF

Последнее сообщение Anonymous « 22 июн 2024, 00:17
Добавлено в форуме Python

Anonymous » 22 июн 2024, 00:17 » в форуме Python

У меня есть столбец, значение которого:
{ ab : 0.7220268151565864, cd : 0.2681795338834256, ef : 1.0, gh : 1.0, ij : 0.9266362339932378, kl : 0.7002315808130385}

Я использую UDF для преобразования этого результата в конечный результат, который...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
22 июн 2024, 00:17
Pyspark UDF для удаления чисел из строкового адреса

Последнее сообщение Anonymous « 02 июл 2024, 18:51
Добавлено в форуме Python

Anonymous » 02 июл 2024, 18:51 » в форуме Python

def num_removal (address):
import re
if not address:
return address

else:
clean address=address

List

for keyword in List:

if keyword in address:

start_index= address.index(keyword)

end_index=start_index len (keyword) - 1

if , in address :...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
02 июл 2024, 18:51
Apache Spark (pyspark) — преобразование двоичного файла в str (UUID) без UDF

Последнее сообщение Anonymous « 06 июл 2024, 13:25
Добавлено в форуме Python

Anonymous » 06 июл 2024, 13:25 » в форуме Python

Я не могу найти способ преобразовать двоичный файл в строковое представление без использования UDF
есть ли способ использовать встроенные функции Spark, а не UDF?
from pyspark.sql import DataFrame, SparkSession
import pyspark.sql.functions as F...

0 Ответы

32 Просмотры

Последнее сообщение Anonymous
06 июл 2024, 13:25
PySpark UDF с типом возвращаемого значения на основе входных данных

Последнее сообщение Anonymous « 17 окт 2024, 17:15
Добавлено в форуме Python

Anonymous » 17 окт 2024, 17:15 » в форуме Python

Я пытаюсь найти способ написать пользовательскую функцию PySpark, которая может поддерживать любые типы входных данных и возвращать тип на основе типов входных данных. Например, скажем, я хотел создать простую функцию фиксации, которая просто...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
17 окт 2024, 17:15
PySpark UDF с типом возвращаемого значения на основе входных данных

Последнее сообщение Anonymous « 17 окт 2024, 21:49
Добавлено в форуме Python

Anonymous » 17 окт 2024, 21:49 » в форуме Python

Я пытаюсь найти способ написать пользовательскую функцию PySpark, которая может поддерживать любые типы входных данных и возвращать тип на основе типов входных данных. Например, скажем, я хотел создать простую функцию фиксации, которая просто...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
17 окт 2024, 21:49

Вернуться в «Python»