Повышает ли нарезка кадров данных в многопроцессорной/многопроцессорной обработке производительность? - Цифровое Кемерово

Повышает ли нарезка кадров данных в многопроцессорной/многопроцессорной обработке производительность? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Повышает ли нарезка кадров данных в многопроцессорной/многопроцессорной обработке производительность?

Цитата

Сообщение Anonymous » 19 янв 2025, 09:39

Мне нужно выполнить некоторые вычисления на разных фрагментах некоторых больших фреймов данных.

Предположим, у меня есть 3 больших фрейма данных df1, df2 и df3.

Каждый из которых имеет столбец «Дата».

Мне нужно выполнить некоторые вычисления над этими кадрами данных на основе срезов даты и поскольку каждая итерация не зависит от на другой итерации мне нужно выполнять эти итерации одновременно.

Код: Выделить всё

df1              # a big dataframe
df2              # a big dataframe
df3              # a big dataframe

Поэтому я определяю желаемую функцию, и в каждом дочернем процессе сначала создается фрагмент df1, df2, df3 внутри процесса, затем другие вычисления продолжаются.

Начиная с df1,

Код: Выделить всё

df2

и df3 — глобальные фреймы данных, мне нужно указать их в качестве аргументов в моей функции. В противном случае он не будет распознан.

Примерно так:

Код: Выделить всё

slices = [ '2020-04-11', '2020-04-12', '2020-04-13', ]
# a list of dates to get sliced further

def my_func(slice,df1=df1,df2=df2,df3=df3):
sliced_df1 = df1[df1.Date >  slice]
sliced_df2 = df2[df2.Date <  slice]
sliced_df3 = df3[df3.Date >= slice]
#
# other computations
# ...
#
return desired_df

Параллельная обработка настраивается, как показано ниже:

Код: Выделить всё

import psutil
pool = multiprocess.Pool(psutil.cpu_count(logical=False))

final_df = pool.map(my_func,[slice for slice in slices])
pool.close()
final_df = pd.concat(final_df, ignore_index = True)

Однако кажется, что при выполнении запускается только одно ядро.

Я полагаю, что, поскольку каждый дочерний процесс хочет получить доступ к глобальным фреймам данных df1, df2 и df3, должен быть общая память для дочернего процесса, и когда я искал в сети, я думаю, мне придется использовать multiprocessing.manager(), но я не уверен, как его использовать и прав ли я насчет его использования?

Я вообще-то новенький к концепции параллельной обработки, и я признателен, если кто-то может помочь.

PS: Кажется, мой вопрос похож на этот пост. Однако на него нет принятого ответа.

Подробнее здесь: https://stackoverflow.com/questions/613 ... erformance

Реклама

1737268760

Anonymous

Мне нужно выполнить некоторые вычисления на разных фрагментах некоторых больших фреймов данных.

Предположим, у меня есть 3 больших фрейма данных df1, df2 и df3.

Каждый из которых имеет столбец «Дата».

Мне нужно выполнить некоторые вычисления над этими кадрами данных на основе срезов даты и поскольку каждая итерация не зависит от на другой итерации мне нужно выполнять эти итерации одновременно.

[code]df1              # a big dataframe
df2              # a big dataframe
df3              # a big dataframe
[/code]

[img]https://i.sstatic.net/LsDjv.png[/img]


Поэтому я определяю желаемую функцию, и в каждом дочернем процессе сначала создается фрагмент df1, df2, df3 внутри процесса, затем другие вычисления продолжаются.

Начиная с df1,[code]df2[/code] и df3 — глобальные фреймы данных, мне нужно указать их в качестве аргументов в моей функции. В противном случае он не будет распознан.

Примерно так:

[code]slices = [ '2020-04-11', '2020-04-12', '2020-04-13', ]
# a list of dates to get sliced further

def my_func(slice,df1=df1,df2=df2,df3=df3):
sliced_df1 = df1[df1.Date >  slice]
sliced_df2 = df2[df2.Date <  slice]
sliced_df3 = df3[df3.Date >= slice]
#
# other computations
# ...
#
return desired_df
[/code]

Параллельная обработка настраивается, как показано ниже:

[code]import psutil
pool = multiprocess.Pool(psutil.cpu_count(logical=False))

final_df = pool.map(my_func,[slice for slice in slices])
pool.close()
final_df = pd.concat(final_df, ignore_index = True)
[/code]

Однако кажется, что при выполнении запускается только одно ядро. 

Я полагаю, что, поскольку каждый дочерний процесс хочет получить доступ к глобальным фреймам данных df1, df2 и df3, должен быть общая память для дочернего процесса, и когда я искал в сети, я думаю, мне придется использовать multiprocessing.manager(), но я не уверен, как его использовать и прав ли я насчет его использования?

Я вообще-то новенький к концепции параллельной обработки, и я признателен, если кто-то может помочь.

PS: Кажется, мой вопрос похож на этот пост. Однако на него нет принятого ответа. 

Подробнее здесь: [url]https://stackoverflow.com/questions/61360592/does-slicing-dataframes-in-multiprocess-multiprocessing-improve-performance[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Палиндромы и нарезка струны. Производительность

Последнее сообщение Anonymous « 03 май 2025, 04:41
Добавлено в форуме Python

Anonymous » 03 май 2025, 04:41 » в форуме Python

Есть много способов проверить, является ли строка палиндром. Многие из них перечислены здесь
Этот вопрос не о «Как», а скорее о производительности.
Я утверждал, что is_palindrome должен быть в два раза быстрее, чем is_palindrome0 , потому что он...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
03 май 2025, 04:41
Палиндромы и нарезка струны. Производительность

Последнее сообщение Anonymous « 03 май 2025, 05:57
Добавлено в форуме Python

Anonymous » 03 май 2025, 05:57 » в форуме Python

Есть много способов проверить, является ли строка палиндром. Многие из них перечислены здесь
Этот вопрос не о «Как», а скорее о производительности.
Я утверждал, что is_palindrome должен быть в два раза быстрее, чем is_palindrome0 , потому что он...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
03 май 2025, 05:57
Палиндромы и нарезка струны. Производительность

Последнее сообщение Anonymous « 03 май 2025, 18:14
Добавлено в форуме Python

Anonymous » 03 май 2025, 18:14 » в форуме Python

Есть много способов проверить, является ли строка палиндром. Многие из них перечислены здесь
Этот вопрос не о «Как», а скорее о производительности.
Я утверждал, что is_palindrome должен быть в два раза быстрее, чем is_palindrome0 , потому что он...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
03 май 2025, 18:14
Распараллеливание Numba не повышает производительность при моделировании Монте-Карло?

Последнее сообщение Anonymous « 01 июл 2024, 06:20
Добавлено в форуме Python

Anonymous » 01 июл 2024, 06:20 » в форуме Python

Это дополнительный вопрос к вопросу, который я задавал ранее, но я думаю, что мне следует начать все сначала. Я пытаюсь реализовать симуляцию числа Пи Монте-Карло и использую numba для повышения производительности. Поскольку каждая итерация цикла...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
01 июл 2024, 06:20
Почему пакетный вывод повышает производительность при использовании cout или подобных функций?

Последнее сообщение Anonymous « 26 окт 2024, 10:05
Добавлено в форуме C++

Anonymous » 26 окт 2024, 10:05 » в форуме C++

Я узнал, как функции вывода, такие как cout в C++, могут влиять на производительность, особенно при печати данных внутри цикла. Я понимаю, что повторный вызов cout в цикле может замедлить работу моей программы из-за буферизации, очистки и системных...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
26 окт 2024, 10:05

Вернуться в «Python»

Programmiererforum