Трансляция DataFrames по измерениям массива NumPy

Трансляция DataFrames по измерениям массива NumPy ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Трансляция DataFrames по измерениям массива NumPy

Цитата

Сообщение Anonymous » 21 дек 2025, 04:45

Я работаю с большим DataFrame Pandas и многомерным массивом NumPy. Моя цель — эффективно «транслировать» определенный столбец DataFrame по одному или нескольким измерениям массива NumPy, выполняя поэлементную операцию.
Предположим, у меня есть DataFrame df следующим образом:

Код: Выделить всё

import pandas as pd
import numpy as np

data = {'id': range(100), 'value': np.random.rand(100)}
df = pd.DataFrame(data)

И массив NumPy с формой (10, 5, 100, 20):

Код: Выделить всё

arr = np.random.rand(10, 5, 100, 20)

Я хочу умножить df['value'] на arr так, чтобы df['value'] умножалось на arr[:, :, i, :] для всех i. По сути, df['value'] должен соответствовать третьему измерению arr.
Решение может включать итерацию или использование np.apply_along_axis, что часто бывает медленным для больших массивов:

Код: Выделить всё

result_slow = np.zeros_like(arr)
for i in range(df.shape[0]):
result_slow[:, :, i, :] = arr[:, :, i, :] * df['value'].iloc[i]

Это работает, но для гораздо большего arr (например, миллионов в третьем измерении) и df это становится затратным в вычислительном отношении.
Как я могу эффективно решить это умножение, используя широковещательную рассылку NumPy без явных циклов или apply_along_axis, чтобы умножить столбец df['value'] вдоль определенной оси (в данном случае 3-й оси) массива NumPy?
Я ищу решение, которое не только хорошо работает с большими наборами данных, но и эффективно использует память.

Подробнее здесь: https://stackoverflow.com/questions/798 ... dimensions

1766281550

Anonymous

Я работаю с большим DataFrame Pandas и многомерным массивом NumPy. Моя цель — эффективно «транслировать» определенный столбец DataFrame по одному или нескольким измерениям массива NumPy, выполняя поэлементную операцию.
Предположим, у меня есть DataFrame df следующим образом:
[code]import pandas as pd
import numpy as np

data = {'id': range(100), 'value': np.random.rand(100)}
df = pd.DataFrame(data)
[/code]
И массив NumPy с формой (10, 5, 100, 20):
[code]arr = np.random.rand(10, 5, 100, 20)
[/code]
Я хочу умножить df['value'] на arr так, чтобы df['value'][i] умножалось на arr[:, :, i, :] для всех i. По сути, df['value'] должен соответствовать третьему измерению arr.
Решение может включать итерацию или использование np.apply_along_axis, что часто бывает медленным для больших массивов:
[code]result_slow = np.zeros_like(arr)
for i in range(df.shape[0]):
result_slow[:, :, i, :] = arr[:, :, i, :] * df['value'].iloc[i]
[/code]
Это работает, но для гораздо большего arr (например, миллионов в третьем измерении) и df это становится затратным в вычислительном отношении.
Как я могу эффективно решить это умножение, используя широковещательную рассылку NumPy без явных циклов или apply_along_axis, чтобы умножить столбец df['value'] вдоль определенной оси (в данном случае 3-й оси) массива NumPy?
Я ищу решение, которое не только хорошо работает с большими наборами данных, но и эффективно использует память. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79852075/broadcasting-dataframes-across-numpy-array-dimensions[/url]