[Примечание. Я пытался задать этот вопрос в Stack Exchange/Software Engineering и Stack Exchange/рекомендациях по программному обеспечению и даже в Stack Exchange/Super User, но у них не было тегов для Polars или Parquet.]
Предположим, у меня есть данные с 1 миллиардом строк. Что из следующего можно было бы рекомендовать:
Сохранить в MySQL и выполнять запросы через MySQL
Сохранить в MySQL и запросить его через Polars.
Сохраните его в Parquet и запросите через Polars.
Пожалуйста, дайте мне знать, если я может предоставить любую дополнительную информацию.
[Примечание. Я пытался задать этот вопрос в Stack Exchange/Software Engineering и Stack Exchange/рекомендациях по программному обеспечению и даже в Stack Exchange/Super User, но у них не было тегов для Polars или Parquet.] Предположим, у меня есть данные с 1 миллиардом строк. Что из следующего можно было бы рекомендовать: [list] [*]Сохранить в MySQL и выполнять запросы через MySQL [*]Сохранить в MySQL и запросить его через Polars. [*]Сохраните его в Parquet и запросите через Polars. [/list] Пожалуйста, дайте мне знать, если я может предоставить любую дополнительную информацию.
Я новичок в науке о данных. Работаю на Поларах, чтобы читать файлы паркета. Общий размер всех этих файлов паркета составляет 240 ГБ. У меня есть машина EC2 с 64 ГБ и 8 виртуальными процессорами.
Я предполагал, что, поскольку Parquet представляет...
Я новичок в науке о данных. Работаю на Поларах, чтобы читать файлы паркета. Общий размер всех этих файлов паркета составляет 240 ГБ. У меня есть машина EC2 с 64 ГБ и 8 виртуальными процессорами.
Я предполагал, что, поскольку Parquet представляет...
У меня есть тема Kafka, содержащая сообщения в формате JSON. Используя Flink Python API, я пытаюсь обработать эти сообщения и сохранить их в файлах паркета в GCS.
Вот очищенный фрагмент кода:
class Extract(MapFunction):
def map(self, value):
record...
У меня есть коллекции CSV-файлов, до 1000, каждый из которых имеет несжатый размер ~1 ГБ. Я хочу создать из них единый набор данных паркета.
При этом я хочу записать, из какого файла взят каждый набор строк.
Я хочу сделать все это менее чем с 10 ГБ...