Потоковая потоковая передача Polars: Parquet Parquet на основе Shift (-1)

Потоковая потоковая передача Polars: Parquet Parquet на основе Shift (-1) ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Потоковая потоковая передача Polars: Parquet Parquet на основе Shift (-1)

Цитата

Сообщение Anonymous » 20 авг 2025, 09:32

Я пытаюсь погрузиться в большой паркетный файл с полярными. Это должно быть легко достичь в (1) памяти: < /p>
import os ; os.environ['POLARS_MAX_THREADS'] = '4'
import polars as pl
import time, random
import numpy as np
random.seed(42)

N_TICKS = 100_000
N_TICKERS = 10_000
T0 = 1755634720560000000
def generate_fake_example_data():
tmp = []
for t in range(N_TICKERS):
print(t,end=',')
tmp.append(pl.DataFrame({
"ticker": [f"ticker{t}"] * N_TICKS,
"epoch_nanos": T0 + np.cumsum(np.random.randint(1e7, 1e10, size=N_TICKS)),
"price": np.round(np.random.uniform(100, 400, size=N_TICKS), 2),
}))
data = pl.concat(tmp)
print(f"{len(data)=}")
data.write_parquet("example_input.parquet")

generate_fake_example_data()

!ls -lah example_input.parquet
print(pl.__version__)

DOWNSAMPLE_NANOS = int(1e11)
# RAM usage spikes by 60GiB
d = pl.scan_parquet("example_input.parquet")
d = d.with_columns((pl.col('epoch_nanos') // DOWNSAMPLE_NANOS).alias('ts_bucket'))
d = d.filter(
(pl.col('ticker') != pl.col('ticker').shift(-1).fill_null('EOF'))
|(pl.col('ts_bucket') != pl.col('ts_bucket').shift(-1))
).drop('ts_bucket')
print(d.explain(engine='streaming'))
d.sink_parquet("example_output.parquet",engine='streaming')
< /code>
output: < /p>
-rw-rw-r--. 1 ec2-user ec2-user 9.4G Aug 19 20:42 example_input.parquet
1.32.3
simple π 3/3 ["ticker", "epoch_nanos", ... 1 other column]
FILTER [([(col("ticker")) != (col("ticker").shift([dyn int: -1]).fill_null(["EOF"]))]) | ([(col("ts_bucket")) != (col("ts_bucket").shift([dyn int: -1]))])]
FROM
WITH_COLUMNS:
[[(col("epoch_nanos")) floor_div (1000000000)].alias("ts_bucket")]
Parquet SCAN [example_input.parquet]
PROJECT 3/3 COLUMNS

Подробнее здесь: https://stackoverflow.com/questions/797 ... on-shift-1

1755671526

Anonymous

 Я пытаюсь погрузиться в большой паркетный файл с полярными. Это должно быть легко достичь в (1) памяти: < /p>
import os ; os.environ['POLARS_MAX_THREADS'] = '4'
import polars as pl
import time, random
import numpy as np
random.seed(42)

N_TICKS = 100_000
N_TICKERS = 10_000
T0 = 1755634720560000000
def generate_fake_example_data():
tmp = []
for t in range(N_TICKERS):
print(t,end=',')
tmp.append(pl.DataFrame({
"ticker": [f"ticker{t}"] * N_TICKS,
"epoch_nanos": T0 + np.cumsum(np.random.randint(1e7, 1e10, size=N_TICKS)),
"price": np.round(np.random.uniform(100, 400, size=N_TICKS), 2),
}))
data = pl.concat(tmp)
print(f"{len(data)=}")
data.write_parquet("example_input.parquet")

generate_fake_example_data()

!ls -lah example_input.parquet
print(pl.__version__)

DOWNSAMPLE_NANOS = int(1e11)
# RAM usage spikes by 60GiB
d = pl.scan_parquet("example_input.parquet")
d = d.with_columns((pl.col('epoch_nanos') // DOWNSAMPLE_NANOS).alias('ts_bucket'))
d = d.filter(
(pl.col('ticker') != pl.col('ticker').shift(-1).fill_null('EOF'))
|(pl.col('ts_bucket') != pl.col('ts_bucket').shift(-1))
).drop('ts_bucket')
print(d.explain(engine='streaming'))
d.sink_parquet("example_output.parquet",engine='streaming')
< /code>
output: < /p>
-rw-rw-r--. 1 ec2-user ec2-user 9.4G Aug 19 20:42 example_input.parquet
1.32.3
simple π 3/3 ["ticker", "epoch_nanos", ... 1 other column]
FILTER [([(col("ticker")) != (col("ticker").shift([dyn int: -1]).fill_null(["EOF"]))]) | ([(col("ts_bucket")) != (col("ts_bucket").shift([dyn int: -1]))])]
FROM
WITH_COLUMNS:
[[(col("epoch_nanos")) floor_div (1000000000)].alias("ts_bucket")]
Parquet SCAN [example_input.parquet]
PROJECT 3/3 COLUMNS
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79740398/polars-streaming-downsample-write-parquet-based-on-shift-1[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Потоковая передача данных в файлы Apache Parquet?

Последнее сообщение Anonymous « 30 июл 2024, 14:59
Добавлено в форуме Python

Anonymous » 30 июл 2024, 14:59 » в форуме Python

У меня есть два потока данных ограниченной продолжительности (обычно 1–60 секунд), и я хочу сохранить их в сжатом файле данных для последующего извлечения. Сейчас я использую HDF5, но слышал о Parquet и хочу попробовать.
Поток 1:
Данные поступают в...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
30 июл 2024, 14:59
Потоковая потоковая передача видео с камеры FLIR с помощью Python

Последнее сообщение Anonymous « 15 мар 2025, 23:05
Добавлено в форуме Python

Anonymous » 15 мар 2025, 23:05 » в форуме Python

У меня проблемы с потоковой передачей от Flir Grasshopper3 до OpenCV. Есть ли способ транслировать непосредственно от камеры FLIR в мой код с помощью Python? Когда я использую приведенный ниже код, CV.VideoCapture не может распознать камеру FLIR в...

0 Ответы

34 Просмотры

Последнее сообщение Anonymous
15 мар 2025, 23:05
Чтение файлов Parquet с использованием parquet.net занимает больше времени, чем Pyarrow (Python)

Последнее сообщение Anonymous « 29 май 2025, 13:59
Добавлено в форуме Python

Anonymous » 29 май 2025, 13:59 » в форуме Python

Обычно, когда дело доходит до операций с файлами паркета, пакет Parquet.net занимает меньше/равное время по сравнению с Python. Но мой первоначальный набор экспериментов не соответствует этому. Чтение 5 миллионов данных в Parquet Python занимает...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
29 май 2025, 13:59
Передача «Shift» + «`» для ожидания

Последнее сообщение Anonymous « 31 окт 2024, 11:58
Добавлено в форуме Python

Anonymous » 31 окт 2024, 11:58 » в форуме Python

У меня есть удаленный сервер, на котором я передаю команды с помощью pexpect. Соединение с сервером осуществляется через последовательный интерфейс с помощью minicom. Существует определенная строка («Shift key» + «`»), которую необходимо отправить...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
31 окт 2024, 11:58
Проблема с производительностью при записи Polars.DataFrame в файл .parquet

Последнее сообщение Anonymous « 08 ноя 2024, 16:15
Добавлено в форуме Python

Anonymous » 08 ноя 2024, 16:15 » в форуме Python

Описание:
Я обновляю свой набор данных (в формате Parquet), но столкнулся с проблемами производительности. Набор данных довольно большой (28 миллионов строк), поэтому я не могу опубликовать его здесь полностью, но (надеюсь) четко опишу проблему....

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
08 ноя 2024, 16:15

Вернуться в «Python»