Влияет ли преобразование RDD в DataFrame и Back разделы или структуру данных внутри раздела в Spark? - Цифровое Кемерово

Влияет ли преобразование RDD в DataFrame и Back разделы или структуру данных внутри раздела в Spark? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Влияет ли преобразование RDD в DataFrame и Back разделы или структуру данных внутри раздела в Spark?

Цитата

Сообщение Anonymous » 14 июл 2025, 21:39

Я экспериментирую с Spark и хочу прояснить, как ведет ведение разделения при преобразовании между RDD и DataFrames.

Код: Выделить всё

rdd1 = sc.parallelize([("a",1), ("b",2), ("c",3), ("d",4)], 4)
print(rdd1.glom().collect())
# Output: [[('a', 1)], [('b', 2)], [('c', 3)], [('d', 4)]]

df = rdd1.toDF(["letter", "freq"])
print(df.collect())
# Output: [Row(letter='a', freq=1),
#          Row(letter='b', freq=2),
#          Row(letter='c', freq=3),
#          Row(letter='d', freq=4)]

rdd2 = df.rdd
print(rdd2.glom().collect())
# Output: [[Row(letter='a', freq=1)],
#          [Row(letter='b', freq=2)],
#          [Row(letter='c', freq=3)],
#          [Row(letter='d', freq=4)]]
< /code>
При преобразовании RDD1 < /code> (где каждый элемент является кортежом) в DataFrame
df

(где каждый элемент становится объектом ряд , создал ли Spark новые разделы, потому что тип данных внутри каждого раздела изменялся от кортежа на строку? Или перегородки остались точно такими же?

Подробнее здесь: https://stackoverflow.com/questions/796 ... -structure

Реклама

1752518355

Anonymous

 Я экспериментирую с Spark и хочу прояснить, как ведет ведение разделения при преобразовании между RDD и DataFrames.[code]rdd1 = sc.parallelize([("a",1), ("b",2), ("c",3), ("d",4)], 4)
print(rdd1.glom().collect())
# Output: [[('a', 1)], [('b', 2)], [('c', 3)], [('d', 4)]]

df = rdd1.toDF(["letter", "freq"])
print(df.collect())
# Output: [Row(letter='a', freq=1),
#          Row(letter='b', freq=2),
#          Row(letter='c', freq=3),
#          Row(letter='d', freq=4)]

rdd2 = df.rdd
print(rdd2.glom().collect())
# Output: [[Row(letter='a', freq=1)],
#          [Row(letter='b', freq=2)],
#          [Row(letter='c', freq=3)],
#          [Row(letter='d', freq=4)]]
< /code>
При преобразовании RDD1 < /code> (где каждый элемент является кортежом) в DataFrame
df[/code] (где каждый элемент становится объектом ряд , создал ли Spark новые разделы, потому что тип данных внутри каждого раздела изменялся от кортежа на строку? Или перегородки остались точно такими же?  

Подробнее здесь: [url]https://stackoverflow.com/questions/79677346/does-converting-an-rdd-to-dataframe-and-back-affect-partitions-or-data-structure[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как исправить org.apache.spark.SparkException: задание прервано из-за сбоя этапа Task & com.datastax.spark.connector.rdd

Последнее сообщение Anonymous « 26 дек 2024, 03:09
Добавлено в форуме JAVA

Anonymous » 26 дек 2024, 03:09 » в форуме JAVA

В моем проекте я использую Spark-Cassandra-Connector для чтения таблицы из Cassandra и дальнейшей обработки ее в JavaRDD, но я столкнулся с проблемой при обработке строки Cassandra в javaRDD.

org.apache.spark.SparkException: Job aborted due to...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
26 дек 2024, 03:09
Как исправить org.apache.spark.sparkexception: Задача прервана из -за сбоя на стадии и com.datastax.spark.connector.rdd.

Последнее сообщение Anonymous « 26 апр 2025, 05:08
Добавлено в форуме JAVA

Anonymous » 26 апр 2025, 05:08 » в форуме JAVA

В своем проекте я использую Spark-Cassandra-Connector для прочтения таблицы From Cassandra и обработать ее в Javardd, но я сталкиваюсь с проблемой при обработке Cassandra Row в Javardd.

org.apache.spark.SparkException: Job aborted due to stage...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
26 апр 2025, 05:08
Как исправить org.apache.spark.sparkexception: Задача прервана из -за сбоя на стадии и com.datastax.spark.connector.rdd.

Последнее сообщение Anonymous « 24 авг 2025, 09:08
Добавлено в форуме JAVA

Anonymous » 24 авг 2025, 09:08 » в форуме JAVA

В своем проекте я использую Spark-Cassandra-Connector для прочтения таблицы From Cassandra и обработать ее в Javardd, но я сталкиваюсь с проблемой при обработке Cassandra Row в Javardd.

org.apache.spark.SparkException: Job aborted due to stage...

0 Ответы

1 Просмотры

Последнее сообщение Anonymous
24 авг 2025, 09:08
Каковы различия между DataFrame, DataSet и RDD в Apache Spark?

Последнее сообщение Anonymous « 11 мар 2025, 23:58
Добавлено в форуме JAVA

Anonymous » 11 мар 2025, 23:58 » в форуме JAVA

В Apache Spark, каковы различия между этими API? Почему и когда мы должны выбрать один над другими?

Подробнее здесь:

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
11 мар 2025, 23:58
Оболочка Spark: spark.executor.extraJavaOptions не разрешено устанавливать параметры Spark.

Последнее сообщение Anonymous « 24 сен 2024, 08:55
Добавлено в форуме Python

Anonymous » 24 сен 2024, 08:55 » в форуме Python

Я создал эту программу Spark Shell, но при ее запуске возникла ошибка:
Windows PowerShell
Copyright (C) Microsoft Corporation. All rights reserved.

Install the latest PowerShell for new features and improvements!

PS...

0 Ответы

52 Просмотры

Последнее сообщение Anonymous
24 сен 2024, 08:55

Вернуться в «Python»

Programmiererforum