Код: Выделить всё
df = pl.DataFrame({'doc_id':[
['83;45;32;65;13','7;8;9'],
['9;4;5','4;2;7;3;5;8;10;11'],
['1000;2000','76;34;100001;7474;2924'],
['100;200','200;100'],
['3;4;6;7;10;11','1;2;3;4;5']
]})
Например:
Код: Выделить всё
['83;45;32;65;13','7;8;9']
Здесь мы должны рассмотреть индекс элемента с наибольшим количеством документов в приведенном выше случае - это будет индекс 0, поскольку он имеет 4 точки с запятой.
ожидаемый результат:
Код: Выделить всё
shape: (5, 2)
┌─────────────────────────────────┬────────────┐
│ doc_id ┆ len_idx_at │
│ --- ┆ --- │
│ list[str] ┆ i32 │
╞═════════════════════════════════╪════════════╡
│ ["83;45;32;65;13", "7;8;9"] ┆ 0 │
│ ["9;4;5", "4;2;7;3;5;8;10;11"] ┆ 1 │
│ ["1000;2000", "76;34;100001;74… ┆ 1 │
│ ["100;200", "200;100"] ┆ 0 │
│ ["3;4;6;7;10;11", "1;2;3;4;5"] ┆ 0 │
└─────────────────────────────────┴────────────┘
Подробнее здесь: https://stackoverflow.com/questions/742 ... lumn-of-po