Lazyframe Polars не возвращает указанный порядок схемы после сбора

Lazyframe Polars не возвращает указанный порядок схемы после сбора ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Lazyframe Polars не возвращает указанный порядок схемы после сбора

Цитата

Сообщение Anonymous » 21 апр 2024, 13:03

У меня есть функция, которая запускается в цикле и выполняет вычисления над списком массивов.
В какой-то момент во время первой итерации функции инициализируется ленивый кадр Polars. p>
На следующих итерациях новый фрейм данных указывается с использованием той же схемы, и два фрейма данных соединяются построчно с помощью pl.vstack, а затем снова указываются как ленивый фрейм.

Код: Выделить всё

import numpy as np
import polars as pl

def my_func():

array_list = [np.zeros((1,19))]*2 #this is just for example and not representative of shape of real array.

for i, _ in enumerate(array_list):

#calculations are done here

result = np.zeros((1,19)) #result of calculations (correct shape of real result)

if i < 1:
result_df = pl.DataFrame(data = result,
schema = {
'MDL',
'MVL',
'MWVL',
'RR',
'DET',
'ADL',
'LDL',
'DIV',
'EDL',
'LAM',
'TT',
'LVL',
'EVL',
'AWVL',
'LWVL',
'LWVLI',
'EWVL',
'Ratio_DRR',
'Ratio_LD'},
orient='row').lazy()

else:

new_df = pl.DataFrame(data=data,
schema = {
'MDL',
'MVL',
'MWVL',
'RR',
'DET',
'ADL',
'LDL',
'DIV',
'EDL',
'LAM',
'TT',
'LVL',
'EVL',
'AWVL',
'LWVL',
'LWVLI',
'EWVL',
'Ratio_DRR',
'Ratio_LD'
},
orient='row')

#append new dataframe to results
result_df = result_df.collect().vstack(new_df, in_place=True).lazy()

return result_df

При возврате кадра данных вне функции имена столбцов больше не в порядке, но данные в порядке.
например,

Код: Выделить всё

result.schema

OrderedDict([('LAM', Float64),
('LDL', Float64),
('ADL', Float64),
('DIV', Float64),
('MDL', Float64),
('MWVL', Float64),
('LWVL', Float64),
('MVL', Float64),
('TT', Float64),
('DET', Float64),
('RR', Float64),
('EDL', Float64),
('Ratio_LD', Float64),
('Ratio_DRR', Float64),
('LVL', Float64),
('LWVLI', Float64),
('EWVL', Float64),
('EVL', Float64),
('AWVL', Float64)])

Я предполагаю, что это связано с моей наивностью в отношении того, как работают ленивые фреймы, но есть ли способ обеспечить порядок без переименования столбцов?
Спасибо .

Подробнее здесь: https://stackoverflow.com/questions/783 ... collecting

1713693783

Anonymous

У меня есть функция, которая запускается в цикле и выполняет вычисления над списком массивов.
В какой-то момент во время первой итерации функции инициализируется ленивый кадр Polars. p>
На следующих итерациях новый фрейм данных указывается с использованием той же схемы, и два фрейма данных соединяются построчно с помощью pl.vstack, а затем снова указываются как ленивый фрейм.
[code]
import numpy as np
import polars as pl

def my_func():

array_list = [np.zeros((1,19))]*2 #this is just for example and not representative of shape of real array.

for i, _ in enumerate(array_list):

#calculations are done here

result = np.zeros((1,19)) #result of calculations (correct shape of real result)

if i < 1:
result_df = pl.DataFrame(data = result,
schema = {
'MDL',
'MVL',
'MWVL',
'RR',
'DET',
'ADL',
'LDL',
'DIV',
'EDL',
'LAM',
'TT',
'LVL',
'EVL',
'AWVL',
'LWVL',
'LWVLI',
'EWVL',
'Ratio_DRR',
'Ratio_LD'},
orient='row').lazy()

else:

new_df = pl.DataFrame(data=data,
schema = {
'MDL',
'MVL',
'MWVL',
'RR',
'DET',
'ADL',
'LDL',
'DIV',
'EDL',
'LAM',
'TT',
'LVL',
'EVL',
'AWVL',
'LWVL',
'LWVLI',
'EWVL',
'Ratio_DRR',
'Ratio_LD'
},
orient='row')

#append new dataframe to results
result_df = result_df.collect().vstack(new_df, in_place=True).lazy()

return result_df

[/code]
При возврате кадра данных вне функции имена столбцов больше не в порядке, но данные в порядке.
например,[code]result.schema

OrderedDict([('LAM', Float64),
('LDL', Float64),
('ADL', Float64),
('DIV', Float64),
('MDL', Float64),
('MWVL', Float64),
('LWVL', Float64),
('MVL', Float64),
('TT', Float64),
('DET', Float64),
('RR', Float64),
('EDL', Float64),
('Ratio_LD', Float64),
('Ratio_DRR', Float64),
('LVL', Float64),
('LWVLI', Float64),
('EWVL', Float64),
('EVL', Float64),
('AWVL', Float64)])
[/code]
Я предполагаю, что это связано с моей наивностью в отношении того, как работают ленивые фреймы, но есть ли способ обеспечить порядок без переименования столбцов?
Спасибо . 

Подробнее здесь: [url]https://stackoverflow.com/questions/78360352/polars-lazyframe-not-returning-specified-schema-order-after-collecting[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Python Polars: Как добавить столбцы в одну LazyFrame в другой LazyFrame?

Последнее сообщение Anonymous « 05 фев 2025, 15:18
Добавлено в форуме Python

Anonymous » 05 фев 2025, 15:18 » в форуме Python

У меня есть LazyFrame в Python, и я хотел бы добавить в него столбцы из другого LazyFrame . Два LazyFrames имеют одинаковое количество строк и разных столбцов. >def append_columns(df:pl.LazyFrame):
df2 = pl.LazyFrame( )
return df.with_columns(df2)...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
05 фев 2025, 15:18
В чем разница между Polars.collect_all и Polars.LazyFrame.collect

Последнее сообщение Anonymous « 19 окт 2024, 23:34
Добавлено в форуме Python

Anonymous » 19 окт 2024, 23:34 » в форуме Python

Начнем с примера ниже:
import time
import numpy as np
import polars as pl

n_index = 1000
n_a = 10
n_b = 500
n_obs = 5000000

df = pl.DataFrame(
{
id : np.random.randint(0, n_index, size=n_obs),
a : np.random.randint(0, n_a, size=n_obs),
b :...

0 Ответы

35 Просмотры

Последнее сообщение Anonymous
19 окт 2024, 23:34
Python Polars: как получить количество строк LazyFrame?

Последнее сообщение Anonymous « 29 май 2024, 21:54
Добавлено в форуме Python

Anonymous » 29 май 2024, 21:54 » в форуме Python

У меня есть CSV-файл размером 70 ГБ. Я хочу загрузить DF и посчитать количество строк в ленивом режиме. Как лучше всего это сделать?
Насколько я могу судить, согласно документации, в ленивом режиме нет такой функции, как shape.
Я нашел этот ответ,...

0 Ответы

87 Просмотры

Последнее сообщение Anonymous
29 май 2024, 21:54
Как обрабатывать Python Polars LazyFrame в пакетном режиме

Последнее сообщение Anonymous « 31 май 2024, 23:55
Добавлено в форуме Python

Anonymous » 31 май 2024, 23:55 » в форуме Python

Я хотел бы отложенно загрузить большой файл паркета. Затем мне нужно обработать его пакетно, потому что я пишу в базу данных, и существует ограничение на количество строк, которые можно записать в базу данных одновременно. В LazyFrame нет метода...

0 Ответы

110 Просмотры

Последнее сообщение Anonymous
31 май 2024, 23:55
Почему сбор LazyFrame перед объединением в Polars решает мою проблему с несоответствиями индексов?

Последнее сообщение Anonymous « 24 июн 2024, 14:55
Добавлено в форуме Python

Anonymous » 24 июн 2024, 14:55 » в форуме Python

РЕДАКТИРОВАТЬ
Вот пример, который можно запустить и который демонстрирует проблему. Начальный LazyFrame включает попарные расстояния между точками на плоскости. Поскольку расстояние A->B равно расстоянию B->A, я сохраняю только уникальные пары, а...

0 Ответы

26 Просмотры

Последнее сообщение Anonymous
24 июн 2024, 14:55

Вернуться в «Python»