Я вполне новичок в pyspark, хотя часто пользователь Pandas и т. Д. , где идентификатор является целым числом, траектория-это список строк данных, содержащих координат-информацию, а тип-это список строк < /p>
Цель состоит в Каждый идентификатор, нарисуйте полилин в карте Python Folium Map, основанной на координатах в списке-концерте траектории.df.first() дает следующий результат
Row(ID=209223000, Trajectory=[Row(Timestamp=datetime.datetime(2024, 11, 1, 2, 58, 29), Latitude=55.108018, Longitude=18.306343, Destination='Unknown'), Row(Timestamp=datetime.datetime(2024, 11, 1, 6, 18, 18), Latitude=55.115625, Longitude=18.103083, Destination='Unknown')], types=['Undefined'])
< /code>
Итак, чтобы быть ясным, мне не нужно добавлять дополнительный столбец в DataFrame, и никаких возражений, если это тоже нуждается. < /p>
Так что псевдо будет выглядеть что -то, что: < /p>
create map-object m
For each Row in df:
create polyline object ply
ply.coordinates = [item.Lat,item.Long] for item in Row['Trajectory']
ply.tooltip = Row['ID'] + Row[types]
add ply to m
< /code>
Конечная цель состоит Описанный псевдокод, но я не могу обернуть голову вокруг, как применить UDF, так как UDF применяется на столбце, а не на DataFrame. < /p>
ожидаемый результат будет добавлен Полилины для карты-объекта на основе каждой строки DataFrame, например, Каждый отдельный идентификатор.|-- ID: integer (nullable = true)
|-- Trajectory: array (nullable = false)
| |-- element: struct (containsNull = false)
| | |-- Timestamp: timestamp (nullable = true)
| | |-- Latitude: double (nullable = true)
| | |-- Longitude: double (nullable = true)
| | |-- Destination: string (nullable = true)
|-- types: array (nullable = false)
| |-- element: string (containsNull = false)
< /code>
Снимок (сжатый) данных: < /p>
+---------+--------------------+--------------------+
| ID | Trajectory| types|
+---------+--------------------+--------------------+
|209223000|[{2024-11-01 02:5...| [Undefined]|
|209508000|[{2024-11-01 08:2...| [Tanker, Undefined]|
|209864000|[{2024-11-01 14:4...|[Passenger, Undef...|
|210095000|[{2024-11-01 08:2...|[Passenger, Undef...|
|210350000|[{2024-11-01 00:0...| [Undefined]|
+---------+--------------------+--------------------+
Подробнее здесь: https://stackoverflow.com/questions/794 ... -dataframe
Pyspark - применение определенной пользовательской функции (UDF) ко всей строке DataFrame ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Pyspark - применение определенной пользовательской функции (UDF) ко всей строке DataFrame
Anonymous » » в форуме Python - 0 Ответы
- 5 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Apache Spark (pyspark) — преобразование двоичного файла в str (UUID) без UDF
Anonymous » » в форуме Python - 0 Ответы
- 34 Просмотры
-
Последнее сообщение Anonymous
-