Перебирать группы таблицы PyArrow

Перебирать группы таблицы PyArrow ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Перебирать группы таблицы PyArrow

Цитата

Сообщение Anonymous » 08 ноя 2024, 04:54

В pandas я могу перебирать группы в groupby:

Код: Выделить всё

In [3]: import pandas as pd

In [4]: data = {'a': [1, 1, 1, 2, 2], 'b': [2, 4, 3, 5, 6]}

In [5]: df = pd.DataFrame(data)

In [6]: for _, sub_df in df.groupby('a'):
...:     print(sub_df)
...:
a  b
0  1  2
1  1  4
2  1  3
a  b
3  2  5
4  2  6

Есть ли эффективный способ сделать это в PyArrow? Скажем, я начну с

Код: Выделить всё

tbl = pa.table(data)

Все, что я могу предложить, это:

Код: Выделить всё

In [16]: for x in pc.unique(tbl['a']):
...:     print(tbl.filter(pc.equal(tbl['a'], x)))
...:
pyarrow.Table
a: int64
b: int64
----
a: [[1,1,1]]
b: [[2,4,3]]
pyarrow.Table
a: int64
b: int64
----
a: [[2,2]]
b: [[5,6]]

но это требует многократного сканирования всего столбца 'a'... есть ли более эффективный способ?

Подробнее здесь: https://stackoverflow.com/questions/791 ... rrow-table

1731030841

Anonymous

В pandas я могу перебирать группы в groupby:
[code]In [3]: import pandas as pd

In [4]: data = {'a': [1, 1, 1, 2, 2], 'b': [2, 4, 3, 5, 6]}

In [5]: df = pd.DataFrame(data)

In [6]: for _, sub_df in df.groupby('a'):
...:     print(sub_df)
...:
a  b
0  1  2
1  1  4
2  1  3
a  b
3  2  5
4  2  6
[/code]
Есть ли эффективный способ сделать это в PyArrow? Скажем, я начну с
[code]tbl = pa.table(data)
[/code]
Все, что я могу предложить, это:
[code]In [16]: for x in pc.unique(tbl['a']):
...:     print(tbl.filter(pc.equal(tbl['a'], x)))
...:
pyarrow.Table
a: int64
b: int64
----
a: [[1,1,1]]
b: [[2,4,3]]
pyarrow.Table
a: int64
b: int64
----
a: [[2,2]]
b: [[5,6]]
[/code]
но это требует многократного сканирования всего столбца 'a'... есть ли более эффективный способ?
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79162038/iterate-over-groups-of-pyarrow-table[/url]