Pyspark - применение определенной пользовательской функции (UDF) ко всей строке DataFrame

Pyspark - применение определенной пользовательской функции (UDF) ко всей строке DataFrame ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Pyspark - применение определенной пользовательской функции (UDF) ко всей строке DataFrame

Цитата

Сообщение Anonymous » 25 фев 2025, 12:50

Я вполне новичок в pyspark, хотя часто пользователь Pandas и т. Д. , где идентификатор является целым числом, траектория-это список строк данных, содержащих координат-информацию, а тип-это список строк 
Цель состоит в Каждый идентификатор, нарисуйте полилин в карте Python Folium Map, основанной на координатах в списке-концерте траектории.df.first() дает следующий результат
Row(ID=209223000, Trajectory=[Row(Timestamp=datetime.datetime(2024, 11, 1, 2, 58, 29), Latitude=55.108018, Longitude=18.306343, Destination='Unknown'), Row(Timestamp=datetime.datetime(2024, 11, 1, 6, 18, 18), Latitude=55.115625, Longitude=18.103083, Destination='Unknown')], types=['Undefined'])
< /code>
Итак, чтобы быть ясным, мне не нужно добавлять дополнительный столбец в DataFrame, и никаких возражений, если это тоже нуждается. 
Так что псевдо будет выглядеть что -то, что: 
create map-object m

For each Row in df:
create polyline object ply
ply.coordinates = [item.Lat,item.Long] for item in Row['Trajectory']
ply.tooltip = Row['ID'] + Row[types]
add ply to m
< /code>
Конечная цель состоит Описанный псевдокод, но я не могу обернуть голову вокруг, как применить UDF, так как UDF применяется на столбце, а не на DataFrame. 
ожидаемый результат будет добавлен Полилины для карты-объекта на основе каждой строки DataFrame, например, Каждый отдельный идентификатор.|-- ID: integer (nullable = true)
|-- Trajectory: array (nullable = false)
| |-- element: struct (containsNull = false)
| | |-- Timestamp: timestamp (nullable = true)
| | |-- Latitude: double (nullable = true)
| | |-- Longitude: double (nullable = true)
| | |-- Destination: string (nullable = true)
|-- types: array (nullable = false)
| |-- element: string (containsNull = false)
< /code>
Снимок (сжатый) данных: 
+---------+--------------------+--------------------+
| ID | Trajectory| types|
+---------+--------------------+--------------------+
|209223000|[{2024-11-01 02:5...| [Undefined]|
|209508000|[{2024-11-01 08:2...| [Tanker, Undefined]|
|209864000|[{2024-11-01 14:4...|[Passenger, Undef...|
|210095000|[{2024-11-01 08:2...|[Passenger, Undef...|
|210350000|[{2024-11-01 00:0...| [Undefined]|
+---------+--------------------+--------------------+

Подробнее здесь: https://stackoverflow.com/questions/794 ... -dataframe

1740477037

Anonymous

 Я вполне новичок в pyspark, хотя часто пользователь Pandas и т. Д. , где идентификатор является целым числом, траектория-это список строк данных, содержащих координат-информацию, а тип-это список строк < /p>
Цель состоит в Каждый идентификатор, нарисуйте полилин в карте Python Folium Map, основанной на координатах в списке-концерте траектории.df.first() дает следующий результат 
Row(ID=209223000, Trajectory=[Row(Timestamp=datetime.datetime(2024, 11, 1, 2, 58, 29), Latitude=55.108018, Longitude=18.306343, Destination='Unknown'), Row(Timestamp=datetime.datetime(2024, 11, 1, 6, 18, 18), Latitude=55.115625, Longitude=18.103083, Destination='Unknown')], types=['Undefined'])
< /code>
Итак, чтобы быть ясным, мне не нужно добавлять дополнительный столбец в DataFrame, и никаких возражений, если это тоже нуждается. < /p>
Так что псевдо будет выглядеть что -то, что: < /p>
create map-object m

For each Row in df:
create polyline object ply
ply.coordinates = [item.Lat,item.Long] for item in Row['Trajectory']
ply.tooltip = Row['ID'] + Row[types]
add ply to m
< /code>
Конечная цель состоит Описанный псевдокод, но я не могу обернуть голову вокруг, как применить UDF, так как UDF применяется на столбце, а не на DataFrame. < /p>
ожидаемый результат будет добавлен Полилины для карты-объекта на основе каждой строки DataFrame, например, Каждый отдельный идентификатор.|-- ID: integer (nullable = true)
|-- Trajectory: array (nullable = false)
|    |-- element: struct (containsNull = false)
|    |    |-- Timestamp: timestamp (nullable = true)
|    |    |-- Latitude: double (nullable = true)
|    |    |-- Longitude: double (nullable = true)
|    |    |-- Destination: string (nullable = true)
|-- types: array (nullable = false)
|    |-- element: string (containsNull = false)
< /code>
Снимок (сжатый) данных: < /p>
+---------+--------------------+--------------------+
|     ID  |          Trajectory|               types|
+---------+--------------------+--------------------+
|209223000|[{2024-11-01 02:5...|         [Undefined]|
|209508000|[{2024-11-01 08:2...| [Tanker, Undefined]|
|209864000|[{2024-11-01 14:4...|[Passenger, Undef...|
|210095000|[{2024-11-01 08:2...|[Passenger, Undef...|
|210350000|[{2024-11-01 00:0...|         [Undefined]|
+---------+--------------------+--------------------+
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79464580/pyspark-applying-user-defined-function-udf-to-entire-row-of-dataframe[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Pyspark - применение определенной пользовательской функции (UDF) ко всей строке DataFrame

Последнее сообщение Anonymous « 24 фев 2025, 22:05
Добавлено в форуме Python

Anonymous » 24 фев 2025, 22:05 » в форуме Python

Я вполне новичок в pyspark, хотя часто пользователь Pandas и т. Д. , где идентификатор является целым числом, траектория-это список строк данных, содержащих координат-информацию, а тип-это список строк
Цель состоит в Каждый идентификатор, нарисуйте...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
24 фев 2025, 22:05
Встроенные функции PySpark для удаления UDF

Последнее сообщение Anonymous « 22 июн 2024, 00:17
Добавлено в форуме Python

Anonymous » 22 июн 2024, 00:17 » в форуме Python

У меня есть столбец, значение которого:
{ ab : 0.7220268151565864, cd : 0.2681795338834256, ef : 1.0, gh : 1.0, ij : 0.9266362339932378, kl : 0.7002315808130385}

Я использую UDF для преобразования этого результата в конечный результат, который...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
22 июн 2024, 00:17
Полярные поля и применение UDF по столбцу

Последнее сообщение Anonymous « 06 окт 2024, 15:01
Добавлено в форуме Python

Anonymous » 06 окт 2024, 15:01 » в форуме Python

Импорт текста в серию полярностей упорядочивает данные в столбцах, что делает поляры (стрелка) такими эффективными. Метод map_batches будет вычислять пользовательскую функцию (UDF) для строк, но не для столбцов. Поэтому я ищу самый быстрый метод...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
06 окт 2024, 15:01
Pyspark UDF для удаления чисел из строкового адреса

Последнее сообщение Anonymous « 02 июл 2024, 18:51
Добавлено в форуме Python

Anonymous » 02 июл 2024, 18:51 » в форуме Python

def num_removal (address):
import re
if not address:
return address

else:
clean address=address

List

for keyword in List:

if keyword in address:

start_index= address.index(keyword)

end_index=start_index len (keyword) - 1

if , in address :...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
02 июл 2024, 18:51
Apache Spark (pyspark) — преобразование двоичного файла в str (UUID) без UDF

Последнее сообщение Anonymous « 06 июл 2024, 13:25
Добавлено в форуме Python

Anonymous » 06 июл 2024, 13:25 » в форуме Python

Я не могу найти способ преобразовать двоичный файл в строковое представление без использования UDF
есть ли способ использовать встроенные функции Spark, а не UDF?
from pyspark.sql import DataFrame, SparkSession
import pyspark.sql.functions as F...

0 Ответы

34 Просмотры

Последнее сообщение Anonymous
06 июл 2024, 13:25

Вернуться в «Python»