Как взять первые n элементов группы, где n > G и G = количество элементов в группе? Например, [code]import polars as pl df = pl.DataFrame(dict(x=[1,1,1,2,3,3,3], y=[1,2,3,4,5,6,7])) df.group_by("x").agg(pl.all().gather([0, 2])) [/code] Приведенный выше пример возвращает ошибку OutOfBoundsError: индексы сбора выходят за пределы .
Данные, с которыми я работаю:
data (140631115432592), ndim: 2, size: 3947910, shape: (232230, 17)
VIN (1-10) object
County object
City object
State object
Postal Code float64
Model Year int64
Make object
Model object
Electric Vehicle Type object...
Обновление: установка маски в контексте group_by теперь работает должным образом.
Поскольку ранг работает не обрабатывает нулевые значения, я хочу написать функцию Rank, которая может обрабатывать нулевые значения.
import numpy as np
import polars...
Я ищу функцию типа
df.group_by('column').agg(sample(10))
чтобы я мог взять около десяти случайно выбранных элементов из каждой группы.
Это специально для того, чтобы я мог читать в LazyFrame и работать с небольшой выборкой каждой группы, а не со...
Я хочу заполнить недостающие месяцы в фрейме данных для каждой группы на основе минимальной и максимальной даты в каждой группе.
Этот подход работает, но использует Polars.map_elements .
import polars as pl
import numpy as np
from datetime import...