Как я могу применить вложенную DataFrame Pyspark в качестве сопоставления с другим DataFrame? - Цифровое Кемерово

Как я могу применить вложенную DataFrame Pyspark в качестве сопоставления с другим DataFrame? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как я могу применить вложенную DataFrame Pyspark в качестве сопоставления с другим DataFrame?

Цитата

Сообщение Anonymous » 01 апр 2025, 21:35

У меня есть json, как это: < /p>

Код: Выделить всё

{"main":{"honda":1,"toyota":2,"BMW":5,"Fiat":4}}
< /code>
Я импортирует в pyspark, как это: < /p>
car_map = spark.read.json('s3_path/car_map.json')

Теперь у меня есть DataFrame:

дал существующий DataFrame:

.data = [(1, 'BMW'),
(2, 'Ford'),
(3, 'honda'),
(4, 'Cadillac'),
(5, 'Fiat')]

df = spark.createDataFrame(data, ["ID", "car"])

+---+--------+
| ID| car|
+---+--------+
| 1| BMW|
| 2| Ford|
| 3| honda|
| 4|Cadillac|
| 5| Fiat|
+---+--------+
< /code>
Как я могу применить отображение в car_map для df, создав новый столбец "x"? Например, если df.car находится в car_map.main, установите x на номер. Иначе, установите x до 99. < /p>
Результат должен быть похожим на SO: < /p>
+---+--------+---+
| ID| car| x|
+---+--------+---+
| 1| BMW| 5|
| 2| Ford| 99|
| 3| honda| 1|
| 4|Cadillac| 99|
| 5| Fiat| 4|
+---+--------+---+
< /code>
Если есть другие преобразования, чтобы это было проще, я открыт. Например, UDF, словарь, массив, взрыв и т. Д.

Подробнее здесь: https://stackoverflow.com/questions/795 ... er-datafra

Реклама

1743532549

Anonymous

 У меня есть json, как это: < /p>
[code]{"main":{"honda":1,"toyota":2,"BMW":5,"Fiat":4}}
< /code>
Я импортирует в pyspark, как это: < /p>
car_map = spark.read.json('s3_path/car_map.json')
[/code]
Теперь у меня есть DataFrame: 
 
дал существующий DataFrame: 

.data = [(1, 'BMW'),
(2, 'Ford'),
(3, 'honda'),
(4, 'Cadillac'),
(5, 'Fiat')]

df = spark.createDataFrame(data, ["ID", "car"])

+---+--------+
| ID|     car|
+---+--------+
|  1|     BMW|
|  2|    Ford|
|  3|   honda|
|  4|Cadillac|
|  5|    Fiat|
+---+--------+
< /code>
Как я могу применить отображение в car_map для df, создав новый столбец "x"? Например, если df.car находится в car_map.main, установите x на номер. Иначе, установите x до 99. < /p>
Результат должен быть похожим на SO: < /p>
+---+--------+---+
| ID|     car|  x|
+---+--------+---+
|  1|     BMW|  5|
|  2|    Ford| 99|
|  3|   honda|  1|
|  4|Cadillac| 99|
|  5|    Fiat|  4|
+---+--------+---+
< /code>
Если есть другие преобразования, чтобы это было проще, я открыт. Например, UDF, словарь, массив, взрыв и т. Д.  

Подробнее здесь: [url]https://stackoverflow.com/questions/79548908/how-can-i-apply-a-json-pyspark-nested-dataframe-as-a-mapping-to-another-datafra[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как я могу применить вложенную DataFrame Pyspark в качестве сопоставления с другим DataFrame?

Последнее сообщение Anonymous « 02 апр 2025, 11:38
Добавлено в форуме Python

Anonymous » 02 апр 2025, 11:38 » в форуме Python

У меня есть json, как это:
{ main :{ honda :1, toyota :2, BMW :5, Fiat :4}}

Я импортирует в pyspark, как это:
car_map = spark.read.json('s3_path/car_map.json')

Теперь у меня есть DataFrame:

дал существующий DataFrame:

.data =

df =...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
02 апр 2025, 11:38
Как применить функцию описать после группировки DataFrame Pyspark?

Последнее сообщение Anonymous « 26 июл 2025, 16:38
Добавлено в форуме Python

Anonymous » 26 июл 2025, 16:38 » в форуме Python

Я хочу найти самый чистый способ применения функции Descript к сгруппированному DataFrame (этот вопрос также может вырасти, чтобы применить любую функцию DF к сгруппированному DF)

Я тестировал сгруппированные агрегатные панды UDF без удачи. Всегда...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
26 июл 2025, 16:38
Как правильно сохранить и загрузить вложенную модель keras (модель, содержащую другую модель, переданную в качестве аргу

Последнее сообщение Anonymous « 21 янв 2025, 20:10
Добавлено в форуме Python

Anonymous » 21 янв 2025, 20:10 » в форуме Python

Я работаю над сохранением и загрузкой вложенной модели Keras, где внутренняя модель передается в качестве аргумента внешней модели. Код сохраняет модель без проблем, но когда я ее загружаю, восстанавливаются только слои внешней модели. Внутренняя...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
21 янв 2025, 20:10
Умный способ написать вложенную для петли или n -размерного массива в качестве строки

Последнее сообщение Anonymous « 09 фев 2025, 07:26
Добавлено в форуме Python

Anonymous » 09 фев 2025, 07:26 » в форуме Python

Я работаю над инструментом для создания входов для моделирования массива, где различные входы итерации в нескольких сериях для создания всех комбинаций входов. Некоторые значения должны итерации, связанные вместе, для игрушечного примера: «День»: и...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
09 фев 2025, 07:26
Преобразовать вложенную дикта Python в панды DataFrame

Последнее сообщение Anonymous « 24 апр 2025, 04:13
Добавлено в форуме Python

Anonymous » 24 апр 2025, 04:13 » в форуме Python

У меня есть данные о погоде в дикте Python, который я пытаюсь конвертировать в DF Pandas. (Оттуда я загрузите его в SQLServer, но у меня есть эта часть)
my_dict = {
'data.outdoor.temperature': {'unit': '℃', 'list':
{'datetime.datetime(2025, 4, 23,...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
24 апр 2025, 04:13

Вернуться в «Python»

Programmiererforum