Например, у меня есть следующий DF:
Код: Выделить всё
df = pl.DataFrame(
{"group": ["A", "A", "B", "B", "B", "B"],
"value": [[3, 2, 5], [2,2,2], [2,5,9,4], [5,4,7,5,1], [9,4,5], [2,2]]}
)
Однако при работе с большим количеством столбцов код может стать несколько «грязнее».
Чтобы решить эту проблему, я решил использовать метод map_elements:
Код: Выделить всё
(
df
.group_by('group')
.agg(
(pl.col('value').map_elements(lambda l: pl.concat(l)))
)
.with_columns(
pl.col('value').map_elements(lambda l: pl.Series.median(l))
)
)
Кроме того, его выполнение требует довольно больших ресурсов. В случаях, когда у меня миллионы строк, время выполнения может растянуться от секунд до минут.
Есть ли лучший способ работы со List[int]?
Есть ли хороший способ оптимизировать мой код?
Подробнее здесь: https://stackoverflow.com/questions/769 ... hon-polars
Мобильная версия