Потоковая передача данных в файлы Apache Parquet?Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Потоковая передача данных в файлы Apache Parquet?

Сообщение Anonymous »

У меня есть два потока данных ограниченной продолжительности (обычно 1–60 секунд), и я хочу сохранить их в сжатом файле данных для последующего извлечения. Сейчас я использую HDF5, но слышал о Parquet и хочу попробовать.
Поток 1:
Данные поступают в виде серии записей, примерно 2500 записей в секунду. Каждая запись представляет собой кортеж (метка времени, тег, данные) следующих размеров:
  • метка времени: 64-битное значение
    < li>тег: 8-битное значение
  • данные: октеты переменной длины (обычно около 100 байт на запись, иногда больше, иногда меньше)

    Поток 2:
    Данные поступают в виде серии записей, примерно 100 000 записей в секунду. Каждая запись представляет собой кортеж (метка времени, индекс, значение) следующих размеров:
  • метка времени: 64 бита
  • индекс: 16-битное значение
  • данные: 32-битное значение
Могу ли я сделать это с помощью Apache Parquet? Я совершенно новичок в этом + не могу найти нужную документацию; Я нашел документацию по чтению/записи целых таблиц, но в моем случае мне нужно постепенно записывать в таблицы пакеты по некоторому количеству строк (в зависимости от того, какой размер буфера я хочу использовать).
Я интересуюсь как Java, так и Python, и могу изучать оба языка, но я более свободно владею Python.
Я нашел эту страницу для pyarrow: https://arrow .apache.org/docs/python/parquet.html --- там говорится о группах строк и ParquetWriter и read_row_group(), но я не могу сказать, поддерживает ли это мой вариант использования.
Есть предложения?

Подробнее здесь: https://stackoverflow.com/questions/644 ... quet-files
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение
  • Потоковая потоковая передача Polars: Parquet Parquet на основе Shift (-1)
    Anonymous » » в форуме Python
    0 Ответы
    3 Просмотры
    Последнее сообщение Anonymous
  • Потоковая потоковая передача видео с камеры FLIR с помощью Python
    Anonymous » » в форуме Python
    0 Ответы
    34 Просмотры
    Последнее сообщение Anonymous
  • Чтение файлов Parquet с использованием parquet.net занимает больше времени, чем Pyarrow (Python)
    Anonymous » » в форуме Python
    0 Ответы
    4 Просмотры
    Последнее сообщение Anonymous
  • Apache Druid: потоковая передача и пакетный прием
    Anonymous » » в форуме JAVA
    0 Ответы
    12 Просмотры
    Последнее сообщение Anonymous
  • Кодирование и потоковая передача данных RGB-D [закрыто]
    Anonymous » » в форуме C++
    0 Ответы
    10 Просмотры
    Последнее сообщение Anonymous

Вернуться в «Python»