Манипулирование кадром данных Pandas с максимальной эффективностью по времени и памяти.

Манипулирование кадром данных Pandas с максимальной эффективностью по времени и памяти. ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Манипулирование кадром данных Pandas с максимальной эффективностью по времени и памяти.

Цитата

Сообщение Anonymous » 12 дек 2024, 18:09

Представьте, что у меня есть такой фрейм данных:

Код: Выделить всё

df = pd.DataFrame(index=pd.Index(['1', '1', '2', '2'], name='from'), columns=['to'], data= ['2', '2', '4', '5'])

df:

Теперь я хотел бы вычислить матрицу, содержащую процент переходов каждого значения в индексе «от» к каждому значению в столбце «до», который известен как матрица перехода. Я могу добиться этого, сначала создав пустую матрицу перехода, а затем заполнив ее процентами с помощью цикла for:

Код: Выделить всё

#Create an empty matrix to populate later (using sparse dtype to save memory):
matrix = pd.DataFrame(index=df.index.unique(), columns=df.to.unique(), data=0, dtype=pd.SparseDtype(dtype=np.float16, fill_value=0))

матрица:

Код: Выделить всё

for i in range(len(df)):
from_, to = df.index[i], df.to.iloc[i]
matrix[to] = matrix[to].sparse.to_dense() # Convert to dense format because sparse dtype does not allow value assignment with .loc in the next line:
matrix.loc[from_, to] += 1     # Do a normal insertion with .loc[]
matrix[to] = matrix[to].astype(pd.SparseDtype(dtype=np.float16, fill_value=0)) # Back to the original sparse format

matrix = (matrix.div(matrix.sum(axis=1), axis=0)*100) # converting counts to percentages

матрица:

Это работает. Например, индекс «1» переходил в «2» только в 100% случаев, а индекс «2» переходил в «4» в 50% случаев и в «5» в остальных 50% случаев, что может необходимо проверить в df.
Проблема: Фактический размер матрицы составляет около 500 х 500 КБ, и завершение цикла for занимает очень много времени. Итак, существует ли векторизованный или другой эффективный способ вычисления матрицы из df
Примечание: я бы получил MemoryError, не используя весь Sparse dtype, даже с dtype =float16 в pd.DataFrame(), поэтому я предпочитаю оставить это, если это возможно. Кроме того, если это имеет значение, очевидно, что эти проценты всегда будут иметь диапазон от 0 до 100.

Подробнее здесь: https://stackoverflow.com/questions/792 ... fficiently

1734016199

Anonymous

Представьте, что у меня есть такой фрейм данных:
[code]df = pd.DataFrame(index=pd.Index(['1', '1', '2', '2'], name='from'), columns=['to'], data= ['2', '2', '4', '5'])
[/code]
df:
[img]https://i.sstatic.net/UDavHvKE.png [/img]

Теперь я хотел бы вычислить матрицу, содержащую процент переходов каждого значения в индексе «от» к каждому значению в столбце «до», который известен как матрица перехода. Я могу добиться этого, сначала создав пустую матрицу перехода, а затем заполнив ее процентами с помощью цикла for:
[code]#Create an empty matrix to populate later (using sparse dtype to save memory):
matrix = pd.DataFrame(index=df.index.unique(), columns=df.to.unique(), data=0, dtype=pd.SparseDtype(dtype=np.float16, fill_value=0))
[/code]
матрица:
[img]https://i.sstatic.net/lQYcXBb9.png [/img]

[code]for i in range(len(df)):
from_, to = df.index[i], df.to.iloc[i]
matrix[to] = matrix[to].sparse.to_dense() # Convert to dense format because sparse dtype does not allow value assignment with .loc in the next line:
matrix.loc[from_, to] += 1     # Do a normal insertion with .loc[]
matrix[to] = matrix[to].astype(pd.SparseDtype(dtype=np.float16, fill_value=0)) # Back to the original sparse format

matrix = (matrix.div(matrix.sum(axis=1), axis=0)*100) # converting counts to percentages
[/code]
матрица:
[img]https://i.sstatic.net/19v4B5H3.png [/img]

Это работает. Например, индекс «1» переходил в «2» только в 100% случаев, а индекс «2» переходил в «4» в 50% случаев и в «5» в остальных 50% случаев, что может необходимо проверить в df.
[b]Проблема:[/b] Фактический размер матрицы составляет около 500 х 500 КБ, и завершение цикла for занимает очень много времени. Итак, существует ли векторизованный или другой эффективный способ вычисления матрицы из df
Примечание: я бы получил MemoryError, не используя весь Sparse dtype, даже с dtype =float16 в pd.DataFrame(), поэтому я предпочитаю оставить это, если это возможно. Кроме того, если это имеет значение, очевидно, что эти проценты всегда будут иметь диапазон от 0 до 100. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79275501/manipulation-of-a-pandas-dataframe-most-time-and-memory-efficiently[/url]