Как эффективно создать экземпляр массива/списка одного элемента в выражениях Polars? - Цифровое Кемерово

Как эффективно создать экземпляр массива/списка одного элемента в выражениях Polars? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Как эффективно создать экземпляр массива/списка одного элемента в выражениях Polars?

Цитата

Сообщение Anonymous » 08 мар 2026, 17:00

Мне нужно преобразовать каждый элемент в Polars df в следующую структуру:

Код: Выделить всё

{
"value": "A",
"lineItemName": "value",
"dimensions": [
{
"itemCode": 1,
"dimensionName": "Clients"
}
]
}

где value соответствует значению этого элемента, lineItemName — имени столбца, itemCode — значению, хранящемуся в
ключевом столбце в строке этого элемента, а DimensionName — заданному литералу.
Например

Код: Выделить всё

df = pl.DataFrame({"key": [1, 2, 3, 4, 5], "value": ["A", "B", "C", "D", "E"]})

Должно получиться:

Код: Выделить всё

shape: (5, 1)
╭─────────────────────────╮
│ value                   │
│ ---                     │
│ struct[3]               │
╞═════════════════════════╡
│ {"A","value",[{1,"D"}]} │
├╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌┤
│ {"B","value",[{2,"D"}]} │
├╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌┤
│ {"C","value",[{3,"D"}]} │
├╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌┤
│ {"D","value",[{4,"D"}]} │
├╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌┤
│ {"E","value",[{5,"D"}]} │
╰─────────────────────────╯

Моя текущая реализация:

Код: Выделить всё

df = df.with_columns(
pl.struct(
pl.col(col).alias("value"),
pl.lit(col).alias("lineItemName"),
pl.concat_list(
pl.struct(pl.col("key").alias("itemCode"), pl.lit("D").alias("dimensionName"))
).alias("dimensions"),
).alias(col)
for col in df.columns
if not col == "key"
).drop("key")

Моя проблема связана с выражением pl.concat_list(). В моем случае список, содержащий структуру измерения, гарантированно
всегда содержит только один элемент. Вот почему я ищу способ избежать значительного (и в моем случае
ненужного) снижения производительности pl.concat_list().
В идеале я мог бы просто:

Код: Выделить всё

pl.lit(
[pl.struct(pl.col("key").alias("itemCode"), pl.lit("D").alias("dimensionName"))]
).alias("dimensions")

но на данный момент это вызывает TypeError: еще не реализовано: вложенные типы объектов.
Я пробовал варианты вышеизложенного, но, похоже, в какой-то момент я не могу избежать столкновения с вложенным выражением. Есть ли
есть ли какой-нибудь способ чисто создать экземпляр этого списка отдельных элементов или, что еще лучше, массива?

Подробнее здесь: https://stackoverflow.com/questions/794 ... fficiently

1772978433

Anonymous

Мне нужно преобразовать каждый элемент в Polars df в следующую структуру:
[code]{
"value": "A",
"lineItemName": "value",
"dimensions": [
{
"itemCode": 1,
"dimensionName": "Clients"
}
]
}
[/code]
где value соответствует значению этого элемента, lineItemName — имени столбца, itemCode — значению, хранящемуся в
ключевом столбце в строке этого элемента, а DimensionName — заданному литералу.
Например
[code]df = pl.DataFrame({"key": [1, 2, 3, 4, 5], "value": ["A", "B", "C", "D", "E"]})
[/code]
Должно получиться:
[code]shape: (5, 1)
╭─────────────────────────╮
│ value                   │
│ ---                     │
│ struct[3]               │
╞═════════════════════════╡
│ {"A","value",[{1,"D"}]} │
├╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌┤
│ {"B","value",[{2,"D"}]} │
├╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌┤
│ {"C","value",[{3,"D"}]} │
├╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌┤
│ {"D","value",[{4,"D"}]} │
├╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌┤
│ {"E","value",[{5,"D"}]} │
╰─────────────────────────╯
[/code]
[img]https://i.sstatic.net/jtOOepSF.png[/img]

Моя текущая реализация:
[code]df = df.with_columns(
pl.struct(
pl.col(col).alias("value"),
pl.lit(col).alias("lineItemName"),
pl.concat_list(
pl.struct(pl.col("key").alias("itemCode"), pl.lit("D").alias("dimensionName"))
).alias("dimensions"),
).alias(col)
for col in df.columns
if not col == "key"
).drop("key")
[/code]
Моя проблема связана с выражением pl.concat_list(). В моем случае список, содержащий структуру измерения, гарантированно
всегда содержит только один элемент. Вот почему я ищу способ избежать значительного (и в моем случае
ненужного) снижения производительности pl.concat_list().
В идеале я мог бы просто:
[code]pl.lit(
[pl.struct(pl.col("key").alias("itemCode"), pl.lit("D").alias("dimensionName"))]
).alias("dimensions")
[/code]
но на данный момент это вызывает TypeError: еще не реализовано: вложенные типы объектов.
Я пробовал варианты вышеизложенного, но, похоже, в какой-то момент я не могу избежать столкновения с вложенным выражением. Есть ли
есть ли какой-нибудь способ чисто создать экземпляр этого списка отдельных элементов или, что еще лучше, массива? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79456596/how-to-instantiate-a-single-element-array-list-in-polars-expressions-efficiently[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»