Python-Polars: производительность широкого фрейма данных

Python-Polars: производительность широкого фрейма данных ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Python-Polars: производительность широкого фрейма данных

Цитата

Сообщение Anonymous » 11 дек 2024, 20:09

В настоящее время мы внедряем систему вычислений, используя Polars в качестве серверной части. Учитывая характеристики нашей модели данных, мы решили полагаться на широкий фрейм данных, где переменные содержат измерение времени. Это означает:

Код: Выделить всё

shape: (2, 2)
┌──────┬───────────────┐
│ name ┆ var1_20231229 │
│ ---  ┆ ---           │
│ str  ┆ f64           │
╞══════╪═══════════════╡
│ VW   ┆ 0.5           │
│ BMW  ┆ 4.0           │
└──────┴───────────────┘

Эта модель прекрасно работает с годовыми, квартальными и даже ежемесячными данными. Однако когда мы вводим ежедневную частоту, добавляя таким образом столбцы и делая данные еще шире, производительность падает. Это справедливо для Pl.LazyFrame и установки Streaming = True. Это ожидаемо, учитывая форму кадра данных.
Важно подчеркнуть, как мы планируем наши запросы: чтобы воспользоваться преимуществами распараллеливания, мы группируем все выражения, которые могут выполняться вместе в тот же контекст with_columns. Таким образом, наши запросы будут выглядеть так:

Код: Выделить всё

(df
.with_columns()
.with_columns()
)

Где второй список выражений не может использовать столбцы исходного фрейма данных.
Есть ли способ повысить производительность этого процесса? Например, извлекая из каждого списка выражений только те столбцы, которые необходимы для вычисления этого списка выражений.

Подробнее здесь: https://stackoverflow.com/questions/792 ... -dataframe

1733936954

Anonymous

В настоящее время мы внедряем систему вычислений, используя Polars в качестве серверной части. Учитывая характеристики нашей модели данных, мы решили полагаться на широкий фрейм данных, где переменные содержат измерение времени. Это означает:
[code]shape: (2, 2)
┌──────┬───────────────┐
│ name ┆ var1_20231229 │
│ ---  ┆ ---           │
│ str  ┆ f64           │
╞══════╪═══════════════╡
│ VW   ┆ 0.5           │
│ BMW  ┆ 4.0           │
└──────┴───────────────┘

[/code]
Эта модель прекрасно работает с годовыми, квартальными и даже ежемесячными данными. Однако когда мы вводим ежедневную частоту, добавляя таким образом столбцы и делая данные еще шире, производительность падает. Это справедливо для Pl.LazyFrame и установки Streaming = True. Это ожидаемо, учитывая форму кадра данных.
Важно подчеркнуть, как мы планируем наши запросы: чтобы воспользоваться преимуществами распараллеливания, мы группируем все выражения, которые могут выполняться вместе в тот же контекст with_columns. Таким образом, наши запросы будут выглядеть так:
[code](df
.with_columns()
.with_columns()
)

[/code]
Где второй список выражений [b]не может[/b] использовать столбцы исходного фрейма данных.
Есть ли способ повысить производительность этого процесса? Например, извлекая из каждого списка выражений только те столбцы, которые необходимы для вычисления этого списка выражений. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79272601/python-polars-performance-of-wide-dataframe[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Какие исключения Python обычно следует перехватывать, поскольку следует избегать широкого перехвата исключений

Последнее сообщение Anonymous « 03 мар 2024, 08:39
Добавлено в форуме Python

Anonymous » 03 мар 2024, 08:39 » в форуме Python

This question is about the W0718:broad-exception-caught We should NOT do this

except Exception: except: Because exceptions like SyntaxError and MemoryError or SyntaxError, KeyboardInterrupt should not be caught, as discussed here Should I always...

0 Ответы

104 Просмотры

Последнее сообщение Anonymous
03 мар 2024, 08:39
Проблема с поворотом видео при сшивании широкого видео (например, 6:4) с вертикальным видео, записанным с помощью мобиль

Последнее сообщение Anonymous « 05 дек 2024, 06:05
Добавлено в форуме Php

Anonymous » 05 дек 2024, 06:05 » в форуме Php

Если вертикальное видео записано с помощью мобильного телефона и его необходимо соединить с горизонтальным видео, в предоставленном выводе часть вертикального видео будет повернута.
Что может быть причиной:

Похоже, ограничение эластичного...

0 Ответы

40 Просмотры

Последнее сообщение Anonymous
05 дек 2024, 06:05
Использует ли Pandas хеширование для одноиндексного фрейма данных и двоичный поиск для многоиндексного фрейма данных?

Последнее сообщение Anonymous « 11 дек 2024, 18:12
Добавлено в форуме Python

Anonymous » 11 дек 2024, 18:12 » в форуме Python

У меня всегда сложилось впечатление, что Pandas использует хеширование при индексировании строк в кадре данных, поэтому такие операции, как df.loc , равны O(1).Однако только сегодня я понял, что это не так, по крайней мере, для многоиндексного...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
11 дек 2024, 18:12
Чтение/запись фрейма данных Polars со столбцом списка из/в базу данных

Последнее сообщение Anonymous « 31 июл 2024, 20:09
Добавлено в форуме Python

Anonymous » 31 июл 2024, 20:09 » в форуме Python

Написание df со столбцом списка, например
df = pl.DataFrame({'a': , 'b':[ , , ]})
df.write_database(
test , sqlite:///test.db ,
if_table_exists = replace ,
)

работает нормально, но потом работает
pl.read_database_uri(query= SELECT * FROM test ,...

0 Ответы

34 Просмотры

Последнее сообщение Anonymous
31 июл 2024, 20:09
Преобразование фрейма данных pandas с объектами словаря в фрейм данных Polars с типом объекта

Последнее сообщение Anonymous « 15 окт 2024, 20:02
Добавлено в форуме Python

Anonymous » 15 окт 2024, 20:02 » в форуме Python

У меня есть фрейм данных pandas со столбцом словарей. Я хочу преобразовать это в фрейм данных Polars с помощью dtype Polars.Object, который, очевидно, обертывает произвольные объекты Python. Я не могу понять, как это сделать.
Рассмотрите этот код:...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
15 окт 2024, 20:02

Вернуться в «Python»