Dask – Как оптимизировать вычисление первой строки каждого раздела в кадре данных dask? - Цифровое Кемерово

Dask – Как оптимизировать вычисление первой строки каждого раздела в кадре данных dask? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Dask – Как оптимизировать вычисление первой строки каждого раздела в кадре данных dask?

Цитата

Сообщение Anonymous » 21 июн 2024, 18:52

Моя общая цель — прочитать несколько CSV-файлов, выполнить некоторые вычисления, сохранить их как базу данных паркета, используя опцию раздела_on в функции to_parquet.
Я не могу переиндексировать и перераспределить перед сохранением из-за ограниченной памяти. При сохранении каждый файл будет представлять собой отдельный раздел и, следовательно, отдельный файл паркета. Я не могу использовать имя файла по умолчанию part.0.parquet, так как в будущем мне может понадобиться добавить файлы в тот же каталог, и они также могут быть part.0.parquet.
Поэтому я хочу присвоить каждому файлу паркета имя исходного файла CSV, из которого он взят.
Для этого, когда я впервые читаю файл CSV, я добавьте столбец с именем файла (--> все строки в каждом разделе будут иметь одно и то же имя файла). Затем я читаю первую строку каждого раздела (и, в частности, столбец с исходным именем файла CSV) и создаю список имен файлов. Затем я использую опцию name_function в функции to_parquet.
Я добиваюсь того, чего хотел, но таким образом мне приходится вызывать .compute(), а это занимает очень много времени.
Есть ли у вас идеи, как я могу ограничить вычисления первой строкой каждого раздела?
Это мой текущий код:
def get_first_element(partition):
return partition['orig_file_name'].iloc[0]

first_elements = ddf.map_partitions(get_first_element).compute()

def name_function(part_idx):
return f"{first_elements[part_idx]}.parquet"

ddf.to_parquet(path=target_directory,
engine='pyarrow',
partition_on=['date', 'hour'],
name_function=name_function,
write_index=True)

Заранее большое спасибо за любые предложения!
Изменить
Этот код повторяет мою следующую проблему. Предложение @mdurant:
@dask.delayed
def process(file_path):
df = pd.DataFrame({'col1':[0, 1, 2, 3], 'col2':[4, 5, 6, 7], 'col3':[88, 88, 99, 99]}) # this is read_csv in my code
file_name = 'aaa'

df.to_parquet(f'{file_name}.parquet',
partition_cols=['col3'])

dask.compute(*[process(f) for f in [1]])

Подробнее здесь: https://stackoverflow.com/questions/786 ... ion-in-a-d

Реклама

1718985127

Anonymous

Моя общая цель — прочитать несколько CSV-файлов, выполнить некоторые вычисления, сохранить их как базу данных паркета, используя опцию раздела_on в функции to_parquet.
Я не могу переиндексировать и перераспределить перед сохранением из-за ограниченной памяти. При сохранении каждый файл будет представлять собой отдельный раздел и, следовательно, отдельный файл паркета. Я не могу использовать имя файла по умолчанию part.0.parquet, так как в будущем мне может понадобиться добавить файлы в тот же каталог, и они также могут быть part.0.parquet.
[b]Поэтому я хочу присвоить каждому файлу паркета имя исходного файла CSV, из которого он взят.[/b]
Для этого, когда я впервые читаю файл CSV, я добавьте столбец с именем файла (--> все строки в каждом разделе будут иметь одно и то же имя файла). Затем я читаю первую строку каждого раздела (и, в частности, столбец с исходным именем файла CSV) и создаю список имен файлов. Затем я использую опцию name_function в функции to_parquet.
Я добиваюсь того, чего хотел, но таким образом мне приходится вызывать .compute(), а это занимает очень много времени.
Есть ли у вас идеи, как я могу ограничить вычисления первой строкой каждого раздела?
Это мой текущий код:
def get_first_element(partition):
return partition['orig_file_name'].iloc[0]

first_elements = ddf.map_partitions(get_first_element).compute()

def name_function(part_idx):
return f"{first_elements[part_idx]}.parquet"

ddf.to_parquet(path=target_directory,
engine='pyarrow',
partition_on=['date', 'hour'],
name_function=name_function,
write_index=True)

Заранее большое спасибо за любые предложения!
[b]Изменить[/b]
Этот код повторяет мою следующую проблему. Предложение @mdurant:
@dask.delayed
def process(file_path):
df = pd.DataFrame({'col1':[0, 1, 2, 3], 'col2':[4, 5, 6, 7], 'col3':[88, 88, 99, 99]}) # this is read_csv in my code
file_name = 'aaa'

df.to_parquet(f'{file_name}.parquet',
partition_cols=['col3'])

dask.compute(*[process(f) for f in [1]])
 

Подробнее здесь: [url]https://stackoverflow.com/questions/78636842/dask-how-to-optimize-the-computation-of-the-first-row-of-each-partition-in-a-d[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Dask – Как оптимизировать вычисление первой строки каждого раздела в кадре данных dask?

Последнее сообщение Anonymous « 25 июн 2024, 16:38
Добавлено в форуме Python

Anonymous » 25 июн 2024, 16:38 » в форуме Python

Моя общая цель — прочитать несколько CSV-файлов, выполнить некоторые вычисления, сохранить их как базу данных паркета, используя опцию partition_on в функции to_parquet.
Я не могу переиндексировать и перераспределить перед сохранением из-за...

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
25 июн 2024, 16:38
Переопределение стиля clang для каждого файла (в идеале для каждого раздела)

Последнее сообщение Anonymous « 12 дек 2024, 03:58
Добавлено в форуме C++

Anonymous » 12 дек 2024, 03:58 » в форуме C++

Я хотел бы пометить часть файла примерно так:

// clang-format -style= { SomeSetting: NewValue }

...

// clang-format -style= { SomeSetting: OldValue }

это переопределит глобальные настройки в корневом файле формата .clang. Если это...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
12 дек 2024, 03:58
Почему вычисление Python с числами с плавающей запятой происходит быстрее, чем вычисление с целыми числами

Последнее сообщение Anonymous « 02 окт 2024, 00:35
Добавлено в форуме Python

Anonymous » 02 окт 2024, 00:35 » в форуме Python

Этот пример показывает, что вычисления Python с числами с плавающей запятой выполняются быстрее, чем с целыми числами. Мне интересно, почему вычисление с целым числом не быстрее, чем с плавающей запятой
import time
# Number of operations
N = 10**7...

0 Ответы

33 Просмотры

Последнее сообщение Anonymous
02 окт 2024, 00:35
Dask Python ValueError: нераспознанный dask менеджера фрагментов — должен быть одним из: []

Последнее сообщение Anonymous « 19 апр 2024, 14:43
Добавлено в форуме Python

Anonymous » 19 апр 2024, 14:43 » в форуме Python

Я использую xarray для объединения нескольких файлов netcdf с помощью xarray.open_mfdataset. Однако при попытке запустить код я получаю следующую ошибку:
---------------------------------------------------------------------------
ValueError...

0 Ответы

32 Просмотры

Последнее сообщение Anonymous
19 апр 2024, 14:43
Как вложить функции dask.delayed в другие функции dask.delayed

Последнее сообщение Anonymous « 27 ноя 2024, 12:54
Добавлено в форуме Python

Anonymous » 27 ноя 2024, 12:54 » в форуме Python

Я пытаюсь изучить dask и создал следующий игрушечный пример конвейера с задержкой.
+-----+ +-----+ +-----+
| baz +--+ bar +--+ foo |
+-----+ +-----+ +-----+

Итак, baz зависит от bar, который, в свою очередь, зависит от foo
I хотелось бы, чтобы...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
27 ноя 2024, 12:54

Вернуться в «Python»

Programmiererforum