Эффективное заполнение предварительно выделенной памяти pandas.DataFrame

Эффективное заполнение предварительно выделенной памяти pandas.DataFrame ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Эффективное заполнение предварительно выделенной памяти pandas.DataFrame

Цитата

Сообщение Anonymous » 05 ноя 2024, 18:48

Мне нужно добавить много строк (1 440 000 000) в pandas.DataFrame.
Я заранее знаю количество строк, поэтому могу предварительно выделите его, а затем заполните его данными в стиле C.
Пока лучшая идея, которая у меня есть, довольно уродлива:

Код: Выделить всё

N = 1000000
sham = [-1] * (N * len(THRESHOLDS) * len(OBJECTS))  # 1440000000
DATA = pd.DataFrame(
{
'threshold': pd.Categorical(sham, categories=THRESHOLDS, ordered=True),
'expected': pd.Series(sham, dtype=np.float16),
'iteration': pd.Series(sham, dtype=np.int32),
'analyser': pd.Categorical(sham, categories=ANALYSERS),
'object': pd.Categorical(sham, categories=OBJECTS),
},
columns=['threshold', 'expected', 'iteration', 'analyser', 'object'])
ptr = 0
for t in THRESHOLDS:
for o in OBJECTS:
for a in ANALYSERS:
for i in range(N):
DATA.iloc[ptr] = t, expectedMonteCarlo(o, a, t), i, a, o
ptr += 1

Вопрос в том, как я могу сделать свой код чище? Я имею в виду особенно:

< li>предварительно выделить ДАННЫЕ, не раздувая их с помощью фиктивного списка,
добавить строки к предварительно выделенным ДАННЫМ без использования индекса?

Основная проблема — эффективность использования памяти. В противном случае я бы добавил записи в объект list, а затем преобразовал его в pandas.DataFrame.

Подробнее здесь: https://stackoverflow.com/questions/444 ... fficiently

1730821727

Anonymous

Мне нужно добавить много строк (1 440 000 000) в pandas.DataFrame.
Я заранее знаю количество строк, поэтому могу предварительно выделите его, а затем заполните его данными в стиле C.
Пока лучшая идея, которая у меня есть, довольно уродлива:
[code]N = 1000000
sham = [-1] * (N * len(THRESHOLDS) * len(OBJECTS))  # 1440000000
DATA = pd.DataFrame(
{
'threshold': pd.Categorical(sham, categories=THRESHOLDS, ordered=True),
'expected': pd.Series(sham, dtype=np.float16),
'iteration': pd.Series(sham, dtype=np.int32),
'analyser': pd.Categorical(sham, categories=ANALYSERS),
'object': pd.Categorical(sham, categories=OBJECTS),
},
columns=['threshold', 'expected', 'iteration', 'analyser', 'object'])
ptr = 0
for t in THRESHOLDS:
for o in OBJECTS:
for a in ANALYSERS:
for i in range(N):
DATA.iloc[ptr] = t, expectedMonteCarlo(o, a, t), i, a, o
ptr += 1
[/code]
Вопрос в том, [b]как я могу сделать свой код чище?[/b] Я имею в виду особенно:
[list]
< li>предварительно выделить ДАННЫЕ, не раздувая их с помощью фиктивного списка,
[*]добавить строки к предварительно выделенным ДАННЫМ без использования индекса?
[/list]
Основная проблема — эффективность использования памяти. В противном случае я бы добавил записи в объект list, а затем преобразовал его в pandas.DataFrame. 

Подробнее здесь: [url]https://stackoverflow.com/questions/44493883/filling-preallocated-pandas-dataframe-memory-efficiently[/url]