Потоковая передача данных в файлы Apache Parquet? - Цифровое Кемерово

Потоковая передача данных в файлы Apache Parquet? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Потоковая передача данных в файлы Apache Parquet?

Цитата

Сообщение Anonymous » 30 июл 2024, 14:59

У меня есть два потока данных ограниченной продолжительности (обычно 1–60 секунд), и я хочу сохранить их в сжатом файле данных для последующего извлечения. Сейчас я использую HDF5, но слышал о Parquet и хочу попробовать.
Поток 1:
Данные поступают в виде серии записей, примерно 2500 записей в секунду. Каждая запись представляет собой кортеж (метка времени, тег, данные) следующих размеров:

метка времени: 64-битное значение
< li>тег: 8-битное значение
данные: октеты переменной длины (обычно около 100 байт на запись, иногда больше, иногда меньше)

Поток 2:
Данные поступают в виде серии записей, примерно 100 000 записей в секунду. Каждая запись представляет собой кортеж (метка времени, индекс, значение) следующих размеров:
метка времени: 64 бита
индекс: 16-битное значение
данные: 32-битное значение

Могу ли я сделать это с помощью Apache Parquet? Я совершенно новичок в этом + не могу найти нужную документацию; Я нашел документацию по чтению/записи целых таблиц, но в моем случае мне нужно постепенно записывать в таблицы пакеты по некоторому количеству строк (в зависимости от того, какой размер буфера я хочу использовать).
Я интересуюсь как Java, так и Python, и могу изучать оба языка, но я более свободно владею Python.
Я нашел эту страницу для pyarrow: https://arrow .apache.org/docs/python/parquet.html --- там говорится о группах строк и ParquetWriter и read_row_group(), но я не могу сказать, поддерживает ли это мой вариант использования.
Есть предложения?

Подробнее здесь: https://stackoverflow.com/questions/644 ... quet-files

Реклама

1722340752

Anonymous

У меня есть два потока данных ограниченной продолжительности (обычно 1–60 секунд), и я хочу сохранить их в сжатом файле данных для последующего извлечения. Сейчас я использую HDF5, но слышал о Parquet и хочу попробовать.
Поток 1:
Данные поступают в виде серии записей, примерно 2500 записей в секунду. Каждая запись представляет собой кортеж (метка времени, тег, данные) следующих размеров:
[list]
[*]метка времени: 64-битное значение
< li>тег: 8-битное значение
[*]данные: октеты переменной длины (обычно около 100 байт на запись, иногда больше, иногда меньше)

Поток 2:
Данные поступают в виде серии записей, примерно 100 000 записей в секунду. Каждая запись представляет собой кортеж (метка времени, индекс, значение) следующих размеров:

[*]метка времени: 64 бита
[*] индекс: 16-битное значение
[*]данные: 32-битное значение
[/list]
[b]Могу ли я сделать это с помощью Apache Parquet?[/b] Я совершенно новичок в этом + не могу найти нужную документацию; Я нашел документацию по чтению/записи целых таблиц, но в моем случае мне нужно постепенно записывать в таблицы пакеты по некоторому количеству строк (в зависимости от того, какой размер буфера я хочу использовать).
Я интересуюсь как Java, так и Python, и могу изучать оба языка, но я более свободно владею Python.
Я нашел эту страницу для pyarrow: https://arrow .apache.org/docs/python/parquet.html --- там говорится о группах строк и ParquetWriter и read_row_group(), но я не могу сказать, поддерживает ли это мой вариант использования.
Есть предложения? 

Подробнее здесь: [url]https://stackoverflow.com/questions/64452407/streaming-data-into-apache-parquet-files[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Потоковая потоковая передача Polars: Parquet Parquet на основе Shift (-1)

Последнее сообщение Anonymous « 20 авг 2025, 09:32
Добавлено в форуме Python

Anonymous » 20 авг 2025, 09:32 » в форуме Python

Я пытаюсь погрузиться в большой паркетный файл с полярными. Это должно быть легко достичь в (1) памяти:
import os ; os.environ = '4'
import polars as pl
import time, random
import numpy as np
random.seed(42)

N_TICKS = 100_000
N_TICKERS = 10_000
T0...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
20 авг 2025, 09:32
Потоковая потоковая передача видео с камеры FLIR с помощью Python

Последнее сообщение Anonymous « 15 мар 2025, 23:05
Добавлено в форуме Python

Anonymous » 15 мар 2025, 23:05 » в форуме Python

У меня проблемы с потоковой передачей от Flir Grasshopper3 до OpenCV. Есть ли способ транслировать непосредственно от камеры FLIR в мой код с помощью Python? Когда я использую приведенный ниже код, CV.VideoCapture не может распознать камеру FLIR в...

0 Ответы

34 Просмотры

Последнее сообщение Anonymous
15 мар 2025, 23:05
Чтение файлов Parquet с использованием parquet.net занимает больше времени, чем Pyarrow (Python)

Последнее сообщение Anonymous « 29 май 2025, 13:59
Добавлено в форуме Python

Anonymous » 29 май 2025, 13:59 » в форуме Python

Обычно, когда дело доходит до операций с файлами паркета, пакет Parquet.net занимает меньше/равное время по сравнению с Python. Но мой первоначальный набор экспериментов не соответствует этому. Чтение 5 миллионов данных в Parquet Python занимает...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
29 май 2025, 13:59
Apache Druid: потоковая передача и пакетный прием

Последнее сообщение Anonymous « 12 ноя 2024, 10:35
Добавлено в форуме JAVA

Anonymous » 12 ноя 2024, 10:35 » в форуме JAVA

Мой вариант использования: сначала мне нужно выполнить пакетный прием, чтобы для этого пакетного приема был создан источник данных. Далее для того же источника данных мне нужно добавить данные, используя потоковый прием (то есть в реальном времени)....

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
12 ноя 2024, 10:35
Кодирование и потоковая передача данных RGB-D [закрыто]

Последнее сообщение Anonymous « 01 июн 2024, 16:18
Добавлено в форуме C++

Anonymous » 01 июн 2024, 16:18 » в форуме C++

У меня есть специально написанный уровень передачи данных, который использует необработанные TCP-соединения на C++ для передачи данных между клиентом и сервером. Сейчас возникла необходимость передавать кадры, поступающие с камеры RGB-D и объем...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
01 июн 2024, 16:18

Вернуться в «Python»

Programmiererforum