Как получить группы строк, ограниченные определенными значениями в Pandas? - Цифровое Кемерово

Как получить группы строк, ограниченные определенными значениями в Pandas? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как получить группы строк, ограниченные определенными значениями в Pandas?

Цитата

Сообщение Anonymous » 28 июн 2024, 08:22

Данные
У меня есть данные, похожие на следующие:

Код: Выделить всё

import pandas as pd

df = pd.DataFrame(
[
["start", ""],
["data", 10],
["data", 11],
["stop", ""],

["start", ""],
["data", 20],
["data", 21],
["stop", ""],
],
columns=["type", "value"],
)

Код: Выделить всё

    type value
0  start
1   data    10
2   data    11
3   stop
4  start
5   data    20
6   data    21
7   stop

Цель
Моя цель — перебирать простые списки данных, ограниченные значениями start и stop код>:

Код: Выделить всё

[10, 11]
[20, 21]

Для этого мне хотелось бы иметь возможность перебирать группы фреймов данных, которые расположены по этим конкретным значениям в определенных столбцах.
Попытка
Я могу сделать это, повторяя:

Код: Выделить всё

def iter_groups(df):
start_idx = None
for idx, row in df.iterrows():
if row["type"] == "start":
assert start_idx is None
start_idx = idx
continue
if row["type"] == "stop":
assert start_idx is not None
yield df.iloc[start_idx : idx+1]
start_idx = None

Но неудивительно, что это происходит довольно медленно. Как я могу сделать это с помощью методов Pandas?
Упрощение
Я думаю, можно с уверенностью предположить, что между остановками никогда не бывает строк
code> одной группы и начало следующей группы.

Подробнее здесь: https://stackoverflow.com/questions/786 ... -in-pandas

Реклама

1719552159

Anonymous

Данные
У меня есть данные, похожие на следующие:
[code]import pandas as pd

df = pd.DataFrame(
[
["start", ""],
["data", 10],
["data", 11],
["stop", ""],

["start", ""],
["data", 20],
["data", 21],
["stop", ""],
],
columns=["type", "value"],
)
[/code]
[code]    type value
0  start
1   data    10
2   data    11
3   stop
4  start
5   data    20
6   data    21
7   stop
[/code]
Цель
Моя цель — перебирать простые списки данных, ограниченные значениями start и stop код>:
[code][10, 11]
[20, 21]
[/code]
Для этого мне хотелось бы иметь возможность перебирать группы фреймов данных, которые расположены по этим конкретным значениям в определенных столбцах.
Попытка 
Я могу сделать это, повторяя:
[code]def iter_groups(df):
start_idx = None
for idx, row in df.iterrows():
if row["type"] == "start":
assert start_idx is None
start_idx = idx
continue
if row["type"] == "stop":
assert start_idx is not None
yield df.iloc[start_idx : idx+1]
start_idx = None
[/code]
Но неудивительно, что это происходит довольно медленно. Как я могу сделать это с помощью методов Pandas?
Упрощение
Я думаю, можно с уверенностью предположить, что между остановками никогда не бывает строк
code> одной группы и начало следующей группы. 

Подробнее здесь: [url]https://stackoverflow.com/questions/78679925/how-to-get-groups-of-rows-bounded-by-specific-values-in-pandas[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как получить группы строк, ограниченные определенными значениями в Pandas?

Последнее сообщение Anonymous « 28 июн 2024, 01:41
Добавлено в форуме Python

Anonymous » 28 июн 2024, 01:41 » в форуме Python

Данные
У меня есть данные, похожие на следующие:
import pandas as pd

df = pd.DataFrame(
[
,
,
,
,

,
,
,
,
],
columns= ,
)

type value
0 start
1 data 10
2 data 11
3 stop
4 start
5 data 20
6 data 21
7 stop

Цель
Моя цель — перебирать...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
28 июн 2024, 01:41
Pandas: проверьте, существует ли строка с определенными значениями

Последнее сообщение Anonymous « 30 дек 2024, 19:53
Добавлено в форуме Python

Anonymous » 30 дек 2024, 19:53 » в форуме Python

У меня есть такой двумерный (или более) DataFrame pandas:

>>> import pandas as pd
>>> df = pd.DataFrame([ , , ], columns= )
>>> df
A B
0 0 1
1 2 3
2 4 5

Теперь предположим, что у меня есть массив numpy, например np.array( ), и я хочу проверить,...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
30 дек 2024, 19:53
Pandas: проверьте, существует ли строка с определенными значениями

Последнее сообщение Anonymous « 08 янв 2025, 00:45
Добавлено в форуме Python

Anonymous » 08 янв 2025, 00:45 » в форуме Python

У меня есть такой двумерный (или более) DataFrame pandas:

>>> import pandas as pd
>>> df = pd.DataFrame([ , , ], columns= )
>>> df
A B
0 0 1
1 2 3
2 4 5

Теперь предположим, что у меня есть массив numpy, например np.array( ), и я хочу проверить,...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
08 янв 2025, 00:45
Как ускорить операцию повторения первых n строк для каждой группы после группы?

Последнее сообщение Anonymous « 06 янв 2025, 06:52
Добавлено в форуме Python

Anonymous » 06 янв 2025, 06:52 » в форуме Python

Файл df содержит миллионы строк, а столбцов group_by — около 15–20. Есть ли способ ускорить эту операцию?
import polars as pl
import numpy as np

n = 50
df = pl.DataFrame(np.random.randint(0, 100, size=(4, n)), schema= )
x_list =...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
06 янв 2025, 06:52
Как ускорить операцию повторения первых n строк для каждой группы после группы?

Последнее сообщение Anonymous « 06 янв 2025, 08:01
Добавлено в форуме Python

Anonymous » 06 янв 2025, 08:01 » в форуме Python

Файл df содержит 100 миллионов строк, а столбцов group_by — около 25–30. Есть ли способ ускорить эту операцию отсюда? или это лучшее, что я могу получить.
import polars as pl
import numpy as np

rows = 100000000
n_cols = 30
df =...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
06 янв 2025, 08:01

Вернуться в «Python»

Programmiererforum