Поток 1:
Данные поступают в виде серии записей, примерно 2500 записей в секунду. Каждая запись представляет собой кортеж (метка времени, тег, данные) следующих размеров:
- метка времени: 64-битное значение
< li>тег: 8-битное значение - данные: октеты переменной длины (обычно около 100 байт на запись, иногда больше, иногда меньше)
Поток 2:
Данные поступают в виде серии записей, примерно 100 000 записей в секунду. Каждая запись представляет собой кортеж (метка времени, индекс, значение) следующих размеров: - метка времени: 64 бита
- индекс: 16-битное значение
- данные: 32-битное значение
Я интересуюсь как Java, так и Python, и могу изучать оба языка, но я более свободно владею Python.
Я нашел эту страницу для pyarrow: https://arrow .apache.org/docs/python/parquet.html --- там говорится о группах строк и ParquetWriter и read_row_group(), но я не могу сказать, поддерживает ли это мой вариант использования.
Есть предложения?
Подробнее здесь: https://stackoverflow.com/questions/644 ... quet-files