Выбор оптимальной стратегии разделения для стола озера Delta на ноутбуке

Выбор оптимальной стратегии разделения для стола озера Delta на ноутбуке ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Выбор оптимальной стратегии разделения для стола озера Delta на ноутбуке

Цитата

Сообщение Anonymous » 31 янв 2025, 03:44

Я работаю над трубопроводом данных, используя Polarars и Delta Lake для хранения и обновления сгруппированного временного ряда на ноутбуке с 16 ГБ оперативной памяти.
Набор данных состоит из ежедневных временных рядов с ~ 1000 уникальных групп с История 125 лет.
Я не могу управлять всем набором данных в одном паркете, поэтому я выбрал Delta Lake в качестве метода хранения. 
Прямо сейчас я пытаюсь Определите наилучшую стратегию разделения, чтобы сбалансировать производительность запроса (!), Управление файлами и эффективность записи. p>

Группа: String (~ 1000 уникальных значений). < /li>
Дата: ежедневно с 1900 по 2025 год. < /li> 5 столбцов числового значения. < /li>
Хранится в таблице Delta. < /li>
Расчетный размер: 2–5 ГБ. >
< /ul>
Ежедневные подъемы: 

Небольшой набор данных (1–30 дней) объединяется ежедневно, Еженедельно или ежемесячно в таблицу Delta. -Корирование в группе и дате.
вакуум для удаления ненужных файлов.

Логическое разделение будет годом/ Месяц /день, но это создаст слишком много небольших файлов.
Я рассматриваю два варианта: 
Разделение по году: 

Лучше для постепенных обновлений и удалений. > Разделение к десятилетию: 

уменьшает разделы до 13, что означает меньше небольших файлов. Обновления и удаления.
Тем не менее, я обычно фильтрую дату при чтении набора данных, а не на год или десятилетие, поэтому запрос по разделу в этом случае не полезен. 
Мои основные вопросы, есть ли лучше Стратегии разделения для Delta Lake в моем случае?
Как я могу эффективно управлять размерами файлов без жертвы запрашиваемости? Одиночный большой паркетный файл: 
import os
import shutil
import psutil
from pathlib import Path
from datetime import date, timedelta
import polars as pl
from deltalake import DeltaTable

def generate_data(ngroups, ndates, ncols=5, start=date(1900, 1, 1), value=1.0, eager=True) -> pl.DataFrame | pl.LazyFrame:
groups = pl.LazyFrame({'group': pl.arange(1, ngroups+1, dtype=pl.Int64, eager=True).cast(pl.String)})
dates = pl.LazyFrame({'date': pl.date_range(start, start+timedelta(days=ndates-1), "1d", eager=True)})
lf = (
groups.join(dates, how='cross')
.with_columns(
[pl.lit(i*value, dtype=pl.Float64).alias(f'val_{i}') for i in range(1, ncols+1)])
)
return lf.collect() if eager else lf

print('Generating initial "large" dataset...')
df = generate_data(ngroups=1000, ndates=125*365, value=1.0, eager=True)
print(df.tail(3))
# ┌───────┬────────────┬───────┬───────┬───────┬───────┬───────┐
# │ group ┆ date ┆ val_1 ┆ val_2 ┆ val_3 ┆ val_4 ┆ val_5 │
# │ --- ┆ --- ┆ --- ┆ --- ┆ --- ┆ --- ┆ --- │
# │ str ┆ date ┆ f64 ┆ f64 ┆ f64 ┆ f64 ┆ f64 │
# ╞═══════╪════════════╪═══════╪═══════╪═══════╪═══════╪═══════╡
# │ 1000 ┆ 2024-11-28 ┆ 1.0 ┆ 2.0 ┆ 3.0 ┆ 4.0 ┆ 5.0 │
# │ 1000 ┆ 2024-11-29 ┆ 1.0 ┆ 2.0 ┆ 3.0 ┆ 4.0 ┆ 5.0 │
# │ 1000 ┆ 2024-11-30 ┆ 1.0 ┆ 2.0 ┆ 3.0 ┆ 4.0 ┆ 5.0 │
# └───────┴────────────┴───────┴───────┴───────┴───────┴───────┘
size = df.estimated_size("gb")
memory = psutil.virtual_memory().total/1024**3
print(f' size/memory => {size:.3}gb/{memory:.3}gb => {int(100*size/memory)}%')
# size/memory => 1.99gb/15.5gb => 12%

print('Saving initial "large" "dataset to delta table...')
delta_path = Path('./table/').resolve() #

Подробнее здесь: https://stackoverflow.com/questions/794 ... n-a-laptop

1738284242

Anonymous

 Я работаю над трубопроводом данных, используя Polarars и Delta Lake для хранения и обновления сгруппированного временного ряда на ноутбуке с 16 ГБ оперативной памяти.
Набор данных состоит из ежедневных временных рядов с ~ 1000 уникальных групп с История 125 лет.
Я не могу управлять всем набором данных в одном паркете, поэтому я выбрал Delta Lake в качестве метода хранения. < /p>
Прямо сейчас я пытаюсь Определите наилучшую стратегию разделения, чтобы сбалансировать производительность запроса (!), Управление файлами и эффективность записи. p>
[list]
[*] Группа: String (~ 1000 уникальных значений). < /li>
 Дата: ежедневно с 1900 по 2025 год. < /li>   5 столбцов числового значения. < /li>
 Хранится в таблице Delta. < /li>
 Расчетный размер: 2–5 ГБ. >
< /ul>
Ежедневные подъемы: < /p>

 Небольшой набор данных (1–30 дней) объединяется ежедневно, Еженедельно или ежемесячно в таблицу Delta. -Корирование в группе и дате.
[*] вакуум для удаления ненужных файлов.
[/list]
Логическое разделение будет годом/ Месяц /день, но это создаст слишком много небольших файлов.
Я рассматриваю два варианта: < /p>
Разделение по году: < /p>

 Лучше для постепенных обновлений и удалений. >  Разделение к десятилетию: < /p>

 уменьшает разделы до 13, что означает меньше небольших файлов. Обновления и удаления.
Тем не менее, я обычно фильтрую дату при чтении набора данных, а не на год или десятилетие, поэтому запрос по разделу в этом случае не полезен.  < /p>
Мои основные вопросы, есть ли лучше Стратегии разделения для Delta Lake в моем случае?
Как я могу эффективно управлять размерами файлов без жертвы запрашиваемости? Одиночный большой паркетный файл: < /p>
import os
import shutil
import psutil
from pathlib import Path
from datetime import date, timedelta
import polars as pl
from deltalake import DeltaTable

def generate_data(ngroups, ndates, ncols=5, start=date(1900, 1, 1), value=1.0, eager=True) -> pl.DataFrame | pl.LazyFrame:
groups = pl.LazyFrame({'group': pl.arange(1, ngroups+1, dtype=pl.Int64, eager=True).cast(pl.String)})
dates = pl.LazyFrame({'date': pl.date_range(start, start+timedelta(days=ndates-1), "1d", eager=True)})
lf = (
groups.join(dates, how='cross')
.with_columns(
[pl.lit(i*value, dtype=pl.Float64).alias(f'val_{i}') for i in range(1, ncols+1)])
)
return lf.collect() if eager else lf

print('Generating initial "large" dataset...')
df = generate_data(ngroups=1000, ndates=125*365, value=1.0, eager=True)
print(df.tail(3))
# ┌───────┬────────────┬───────┬───────┬───────┬───────┬───────┐
# │ group ┆ date       ┆ val_1 ┆ val_2 ┆ val_3 ┆ val_4 ┆ val_5 │
# │ ---   ┆ ---        ┆ ---   ┆ ---   ┆ ---   ┆ ---   ┆ ---   │
# │ str   ┆ date       ┆ f64   ┆ f64   ┆ f64   ┆ f64   ┆ f64   │
# ╞═══════╪════════════╪═══════╪═══════╪═══════╪═══════╪═══════╡
# │ 1000  ┆ 2024-11-28 ┆ 1.0   ┆ 2.0   ┆ 3.0   ┆ 4.0   ┆ 5.0   │
# │ 1000  ┆ 2024-11-29 ┆ 1.0   ┆ 2.0   ┆ 3.0   ┆ 4.0   ┆ 5.0   │
# │ 1000  ┆ 2024-11-30 ┆ 1.0   ┆ 2.0   ┆ 3.0   ┆ 4.0   ┆ 5.0   │
# └───────┴────────────┴───────┴───────┴───────┴───────┴───────┘
size = df.estimated_size("gb")
memory = psutil.virtual_memory().total/1024**3
print(f'  size/memory => {size:.3}gb/{memory:.3}gb => {int(100*size/memory)}%')
# size/memory => 1.99gb/15.5gb => 12%

print('Saving initial "large" "dataset to delta table...')
delta_path = Path('./table/').resolve()  # 

Подробнее здесь: [url]https://stackoverflow.com/questions/79400993/choosing-an-optimal-partitioning-strategy-for-a-delta-lake-table-on-a-laptop[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Выбор оптимальной стратегии разделения для стола озера Delta на ноутбуке

Последнее сообщение Anonymous « 30 янв 2025, 22:11
Добавлено в форуме Python

Anonymous » 30 янв 2025, 22:11 » в форуме Python

Я работаю над трубопроводом данных, используя Polarars и Delta Lake для хранения и обновления сгруппированного временного ряда на ноутбуке с 16 ГБ оперативной памяти.
Набор данных состоит из ежедневных временных рядов с ~ 1000 уникальных групп с...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
30 янв 2025, 22:11
Выбор оптимальной стратегии разделения для стола озера Delta на ноутбуке

Последнее сообщение Anonymous « 31 янв 2025, 04:45
Добавлено в форуме Python

Anonymous » 31 янв 2025, 04:45 » в форуме Python

Я работаю над трубопроводом данных, используя Polarars и Delta Lake для хранения и обновления сгруппированного временного ряда на ноутбуке с 16 ГБ оперативной памяти.
Набор данных состоит из ежедневных временных рядов с ~ 1000 уникальных групп с...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
31 янв 2025, 04:45
Выбор оптимальной стратегии разделения для стола озера Delta на ноутбуке

Последнее сообщение Anonymous « 31 янв 2025, 16:08
Добавлено в форуме Python

Anonymous » 31 янв 2025, 16:08 » в форуме Python

Я работаю над трубопроводом данных, используя Polarars и Delta Lake для хранения и обновления сгруппированного временного ряда на ноутбуке с 16 ГБ оперативной памяти.
Набор данных состоит из ежедневных временных рядов с ~ 1000 уникальных групп с...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
31 янв 2025, 16:08
Выбор оптимальной стратегии разделения для стола озера Delta на ноутбуке

Последнее сообщение Anonymous « 31 янв 2025, 19:28
Добавлено в форуме Python

Anonymous » 31 янв 2025, 19:28 » в форуме Python

Я работаю над трубопроводом данных, используя Polarars и Delta Lake для хранения и обновления сгруппированного временного ряда на ноутбуке с 16 ГБ оперативной памяти.
Набор данных состоит из ежедневных временных рядов с ~ 1000 уникальных групп с...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
31 янв 2025, 19:28
Как создать дельта-таблицу с помощью автономного озера Delta Lake и записать данные

Последнее сообщение Anonymous « 30 сен 2024, 12:46
Добавлено в форуме JAVA

Anonymous » 30 сен 2024, 12:46 » в форуме JAVA

Я могу прочитать дельта-таблицу, созданную в Amazon S3, с помощью автономного API, но не могу создать дельта-таблицу и вставить в нее данные. В приведенной ниже ссылке на озеро Дельта упоминается использование устройства чтения и записи Zappy,...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
30 сен 2024, 12:46

Вернуться в «Python»