Эффективное чтение части секционированного набора данных

Эффективное чтение части секционированного набора данных ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Эффективное чтение части секционированного набора данных

Цитата

Сообщение Anonymous » 07 ноя 2024, 16:46

У меня довольно большие (до ~300 ГБ) наборы данных, хранящиеся в разделах в формате паркета (сжатом).
Я пытаюсь найти эффективный способ чтения частей (как определено с помощью набора фильтров) набора данных в pandas.
Сейчас это делается

Код: Выделить всё

result = ds.dataset(dataset_storage_root, format="parquet", partitioning='hive').scanner(
columns=columns,
filter=filters
).to_table().to_pandas()

Хотя это работает, это довольно медленно (я предполагаю, что это связано с тем, что на самом деле он считывает весь набор данных и только затем применяет фильтры, перебирая каждую строку).
И под довольно медленными я подразумеваю ~13 секунд, что нормально, учитывая размер набора данных, но смешно, учитывая фактический объем данных, которые мне нужно получить.
Определение подпапки для данных и чтение вручную только эта часть для сравнения занимает ~9 мс. Обратной стороной является то, что мне нужно вручную добавлять столбцы и значения разделов и обрабатывать немало крайних случаев с помощью фильтрации и схем.
Я предполагаю, что должен быть способ сделать это с помощью API и при этом эффективно.
Что я уже пробовал, к своему разочарованию:

Код: Выделить всё

df_pandas = pd.read_parquet(dataset_storage_root, engine="pyarrow", filters=filters)

Занимает 1 минуту 23 секунды.

Код: Выделить всё

df_pq = pq.read_table(dataset_storage_root, filters=filters)

Занимает 1 минуту 22 секунды.
Это занимает безумное количество времени, несмотря на утверждение, что необходимо читать только подмножество, указанное фильтрами.>

Подробнее здесь: https://stackoverflow.com/questions/791 ... ed-dataset

1730987185

Anonymous

У меня довольно большие (до ~300 ГБ) наборы данных, хранящиеся в разделах в формате паркета (сжатом).
Я пытаюсь найти эффективный способ чтения частей (как определено с помощью набора фильтров) набора данных в pandas.
Сейчас это делается
[code]result = ds.dataset(dataset_storage_root, format="parquet", partitioning='hive').scanner(
columns=columns,
filter=filters
).to_table().to_pandas()
[/code]
Хотя это работает, это довольно медленно (я предполагаю, что это связано с тем, что на самом деле он считывает весь набор данных и только затем применяет фильтры, перебирая каждую строку).
И под довольно медленными я подразумеваю ~13 секунд, что нормально, учитывая размер набора данных, но смешно, учитывая фактический объем данных, которые мне нужно получить.
Определение подпапки для данных и чтение вручную только эта часть для сравнения занимает ~9 мс. Обратной стороной является то, что мне нужно вручную добавлять столбцы и значения разделов и обрабатывать немало крайних случаев с помощью фильтрации и схем.
[b]Я предполагаю, что должен быть способ сделать это с помощью API и при этом эффективно.[/b]
Что я уже пробовал, к своему разочарованию:
[code]df_pandas = pd.read_parquet(dataset_storage_root, engine="pyarrow", filters=filters)
[/code]
Занимает 1 минуту 23 секунды.
[code]df_pq = pq.read_table(dataset_storage_root, filters=filters)
[/code]
Занимает 1 минуту 22 секунды.
Это занимает безумное количество времени, несмотря на утверждение, что необходимо читать только подмножество, указанное фильтрами.> 

Подробнее здесь: [url]https://stackoverflow.com/questions/79166740/efficiently-reading-part-of-partitioned-dataset[/url]