Создать DataFrame с столбцом Arraytype в pyspark

Создать DataFrame с столбцом Arraytype в pyspark ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Создать DataFrame с столбцом Arraytype в pyspark

Цитата

Сообщение Anonymous » 16 фев 2025, 02:59

Я пытаюсь создать новый DataFrame с столбцом ArrayType () , я пытался с определением схемы и без определения, но не смог получить желаемый результат. Мой код ниже со схемой 
from pyspark.sql.types import *
l = [[1,2,3],[3,2,4],[6,8,9]]
schema = StructType([
StructField("data", ArrayType(IntegerType()), True)
])
df = spark.createDataFrame(l,schema)
df.show(truncate = False)
< /code>
Это дает ошибку: 

valueError: длина объекта (3) не совпадает с длиной полей
(1) 
< /blockquote>
желаемый вывод: 
+---------+
|data |
+---------+
|[1,2,3] |
|[3,2,4] |
|[6,8,9] |
+---------+

edit:
Я нашел странную вещь (по крайней мере для меня):
Если мы используем следующий код, он дает ожидаемый результат: 
import pyspark.sql.functions as f
data = [
('person', ['john', 'sam', 'jane']),
('pet', ['whiskers', 'rover', 'fido'])
]

df = spark.createDataFrame(data, ["type", "names"])
df.show(truncate=False)
< /code>
Это дает следующий ожидаемый вывод: 
+------+-----------------------+
|type |names |
+------+-----------------------+
|person|[john, sam, jane] |
|pet |[whiskers, rover, fido]|
+------+-----------------------+
< /code>
Но если мы удалим первый столбец, то он дает неожиданный результат. 
import pyspark.sql.functions as f
data = [
(['john', 'sam', 'jane']),
(['whiskers', 'rover', 'fido'])
]

df = spark.createDataFrame(data, ["names"])
df.show(truncate=False)
< /code>
Это дает следующий вывод: 
+--------+-----+----+
|names |_2 |_3 |
+--------+-----+----+
|john |sam |jane|
|whiskers|rover|fido|
+--------+-----+----+

Подробнее здесь: https://stackoverflow.com/questions/640 ... in-pyspark

1739663972

Anonymous

 Я пытаюсь создать новый DataFrame с столбцом ArrayType () , я пытался с определением схемы и без определения, но не смог получить желаемый результат. Мой код ниже со схемой < /p>
from pyspark.sql.types import *
l = [[1,2,3],[3,2,4],[6,8,9]]
schema = StructType([
StructField("data", ArrayType(IntegerType()), True)
])
df = spark.createDataFrame(l,schema)
df.show(truncate = False)
< /code>
Это дает ошибку: < /p>

valueError: длина объекта (3) не совпадает с длиной полей
(1) < /p>
< /blockquote>
желаемый вывод: < /p>
+---------+
|data     |
+---------+
|[1,2,3]  |
|[3,2,4]  |
|[6,8,9]  |
+---------+

[b] edit: [/b] 
Я нашел странную вещь (по крайней мере для меня): 
Если мы используем следующий код, он дает ожидаемый результат: < /p>
import pyspark.sql.functions as f
data = [
('person', ['john', 'sam', 'jane']),
('pet', ['whiskers', 'rover', 'fido'])
]

df = spark.createDataFrame(data, ["type", "names"])
df.show(truncate=False)
< /code>
Это дает следующий ожидаемый вывод: < /p>
+------+-----------------------+
|type  |names                  |
+------+-----------------------+
|person|[john, sam, jane]      |
|pet   |[whiskers, rover, fido]|
+------+-----------------------+
< /code>
Но если мы удалим первый столбец, то он дает неожиданный результат. < /p>
import pyspark.sql.functions as f
data = [
(['john', 'sam', 'jane']),
(['whiskers', 'rover', 'fido'])
]

df = spark.createDataFrame(data, ["names"])
df.show(truncate=False)
< /code>
Это дает следующий вывод: < /p>
+--------+-----+----+
|names   |_2   |_3  |
+--------+-----+----+
|john    |sam  |jane|
|whiskers|rover|fido|
+--------+-----+----+
 

Подробнее здесь: [url]https://stackoverflow.com/questions/64041530/create-dataframe-with-arraytype-column-in-pyspark[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Pyspark Maptype с Arraytype в качестве броска ключей

Последнее сообщение Anonymous « 28 май 2025, 08:33
Добавлено в форуме Python

Anonymous » 28 май 2025, 08:33 » в форуме Python

Я могу создать Pyspark DataFrame с столбцом Maptype, ключом которого является Arraytype. Метод Show () работает DataFrame, но метод collect () выбрасывает исключение:
> return cloudpickle.loads(obj, encoding=encoding)
E TypeError: unhashable type:...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
28 май 2025, 08:33
Pyspark Maptype с Arraytype в качестве броска ключей

Последнее сообщение Anonymous « 28 май 2025, 19:08
Добавлено в форуме Python

Anonymous » 28 май 2025, 19:08 » в форуме Python

Я могу создать Pyspark DataFrame с столбцом Maptype, ключом которого является Arraytype. Метод Show () работает DataFrame, но метод collect () выбрасывает исключение:
> return cloudpickle.loads(obj, encoding=encoding)
E TypeError: unhashable type:...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
28 май 2025, 19:08
Pyspark Arraytype Использование в преобразовании в государство

Последнее сообщение Anonymous « 05 сен 2025, 10:36
Добавлено в форуме Python

Anonymous » 05 сен 2025, 10:36 » в форуме Python

У меня есть следующий код Python, который использует Pyspark для издевания системы обнаружения мошенничества для кредитных карт:
from pyspark.sql import SparkSession
from pyspark.sql.functions import from_json, col, unix_timestamp
from...

0 Ответы

1 Просмотры

Последнее сообщение Anonymous
05 сен 2025, 10:36
Pyspark Arraytype Использование в преобразовании в государство

Последнее сообщение Гость « 05 сен 2025, 12:54
Добавлено в форуме Python

Гость » 05 сен 2025, 12:54 » в форуме Python

У меня есть следующий код Python, который использует Pyspark для издевания системы обнаружения мошенничества для кредитных карт:
from pyspark.sql import SparkSession
from pyspark.sql.functions import from_json, col, unix_timestamp
from...

0 Ответы

2 Просмотры

Последнее сообщение Гость
05 сен 2025, 12:54
Pyspark Arraytype Использование в преобразовании в государство

Последнее сообщение Anonymous « 10 сен 2025, 09:21
Добавлено в форуме Python

Anonymous » 10 сен 2025, 09:21 » в форуме Python

У меня есть следующий код Python, который использует Pyspark для издевания системы обнаружения мошенничества для кредитных карт:
from pyspark.sql import SparkSession
from pyspark.sql.functions import from_json, col, unix_timestamp
from...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
10 сен 2025, 09:21

Вернуться в «Python»