Можно ли хранить в памяти несколько групп строк и последовательно сбрасывать их при записи в Parquet?JAVA

Программисты JAVA общаются здесь
Ответить
Anonymous
 Можно ли хранить в памяти несколько групп строк и последовательно сбрасывать их при записи в Parquet?

Сообщение Anonymous »

Я работаю над приложением для обработки данных, в котором мне нужно записать данные в файл Parquet. Моя цель — разделить данные на несколько групп строк на основе поля с низкой мощностью. В частности, я хочу:
  • Поддерживать в памяти несколько групп строк.
  • Сбрасывать группу строк в файл Parquet, когда она достигает определенного порога памяти.
  • Сбрасывать все оставшиеся группы строк последовательно в файл Parquet, когда файл закрыт.
Этот подход направлен на оптимизацию файла для чтения, гарантируя, что связанные данные сгруппированы в одной группе строк.
С точки зрения сценария возможно ли изменить текущую библиотеку Parquet (например, parquet-rs или parquet-mr) для достижения вышеуказанного цели? Если это возможно, можете ли вы предоставить какие-либо рекомендации или примеры того, как это реализовать? Если это невозможно, существуют ли какие-либо другие рекомендуемые стратегии или обходные пути?
Спасибо за помощь!
измените текущую библиотеку Parquet
р>

Подробнее здесь: https://stackoverflow.com/questions/786 ... m-sequenti
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «JAVA»