Встроенные функции PySpark для удаления UDF

Встроенные функции PySpark для удаления UDF ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Встроенные функции PySpark для удаления UDF

Цитата

Сообщение Anonymous » 22 июн 2024, 00:17

У меня есть столбец, значение которого:

Код: Выделить всё

"{""ab"": 0.7220268151565864, ""cd"": 0.2681795338834256, ""ef"": 1.0, ""gh"": 1.0, ""ij"": 0.9266362339932378, ""kl"": 0.7002315808130385}"

Я использую UDF для преобразования этого результата в конечный результат, который выглядит следующим образом:

Код: Выделить всё

{"ab": 0.7220268151565864, "cd": 0.2681795338834256, "ef": 1.0, "gh": 1.0, "ij": 0.9266362339932378, "kl": 0.7002315808130385}

Но эта пользовательская функция занимает очень много времени, поскольку таких столбцов несколько, и мне приходится запускать пользовательскую функцию несколько раз. Может ли кто-нибудь помочь, если окончательного результата можно достичь, используя только встроенные функции PySpark, чтобы повысить производительность?

Подробнее здесь: https://stackoverflow.com/questions/786 ... remove-udf

1719004663

Anonymous

У меня есть столбец, значение которого:
[code]"{""ab"": 0.7220268151565864, ""cd"": 0.2681795338834256, ""ef"": 1.0, ""gh"": 1.0, ""ij"": 0.9266362339932378, ""kl"": 0.7002315808130385}"
[/code]
Я использую UDF для преобразования этого результата в конечный результат, который выглядит следующим образом:
[code]{"ab": 0.7220268151565864, "cd": 0.2681795338834256, "ef": 1.0, "gh": 1.0, "ij": 0.9266362339932378, "kl": 0.7002315808130385}
[/code]
Но эта пользовательская функция занимает очень много времени, поскольку таких столбцов несколько, и мне приходится запускать пользовательскую функцию несколько раз. Может ли кто-нибудь помочь, если окончательного результата можно достичь, используя только встроенные функции PySpark, чтобы повысить производительность? 

Подробнее здесь: [url]https://stackoverflow.com/questions/78651171/pyspark-builtin-functions-to-remove-udf[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Pyspark UDF для удаления чисел из строкового адреса

Последнее сообщение Anonymous « 02 июл 2024, 18:51
Добавлено в форуме Python

Anonymous » 02 июл 2024, 18:51 » в форуме Python

def num_removal (address):
import re
if not address:
return address

else:
clean address=address

List

for keyword in List:

if keyword in address:

start_index= address.index(keyword)

end_index=start_index len (keyword) - 1

if , in address :...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
02 июл 2024, 18:51
Pyspark - применение определенной пользовательской функции (UDF) ко всей строке DataFrame

Последнее сообщение Anonymous « 24 фев 2025, 22:05
Добавлено в форуме Python

Anonymous » 24 фев 2025, 22:05 » в форуме Python

Я вполне новичок в pyspark, хотя часто пользователь Pandas и т. Д. , где идентификатор является целым числом, траектория-это список строк данных, содержащих координат-информацию, а тип-это список строк
Цель состоит в Каждый идентификатор, нарисуйте...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
24 фев 2025, 22:05
Pyspark - применение определенной пользовательской функции (UDF) ко всей строке DataFrame

Последнее сообщение Anonymous « 25 фев 2025, 12:50
Добавлено в форуме Python

Anonymous » 25 фев 2025, 12:50 » в форуме Python

Я вполне новичок в pyspark, хотя часто пользователь Pandas и т. Д. , где идентификатор является целым числом, траектория-это список строк данных, содержащих координат-информацию, а тип-это список строк
Цель состоит в Каждый идентификатор, нарисуйте...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
25 фев 2025, 12:50
Apache Spark (pyspark) — преобразование двоичного файла в str (UUID) без UDF

Последнее сообщение Anonymous « 06 июл 2024, 13:25
Добавлено в форуме Python

Anonymous » 06 июл 2024, 13:25 » в форуме Python

Я не могу найти способ преобразовать двоичный файл в строковое представление без использования UDF
есть ли способ использовать встроенные функции Spark, а не UDF?
from pyspark.sql import DataFrame, SparkSession
import pyspark.sql.functions as F...

0 Ответы

32 Просмотры

Последнее сообщение Anonymous
06 июл 2024, 13:25
PySpark UDF с типом возвращаемого значения на основе входных данных

Последнее сообщение Anonymous « 17 окт 2024, 17:15
Добавлено в форуме Python

Anonymous » 17 окт 2024, 17:15 » в форуме Python

Я пытаюсь найти способ написать пользовательскую функцию PySpark, которая может поддерживать любые типы входных данных и возвращать тип на основе типов входных данных. Например, скажем, я хотел создать простую функцию фиксации, которая просто...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
17 окт 2024, 17:15

Вернуться в «Python»