Простаивает при использовании Pandas-on-spark apply() для распараллеливания очистки больших данных (невозможно загрузить

Простаивает при использовании Pandas-on-spark apply() для распараллеливания очистки больших данных (невозможно загрузить ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Простаивает при использовании Pandas-on-spark apply() для распараллеливания очистки больших данных (невозможно загрузить

Цитата

Сообщение Anonymous » 29 ноя 2024, 19:07

Во-первых, я работаю над azure-Databricks, набор данных не может быть загружен в память... так что, возможно, существует другой, более эффективный или более простой способ...
Я пытаюсь использовать Pandas-on-Spark для распараллеливания очистки больших данных. Я пробую многое, но всегда получаю ошибку или код простаивает.
Моя стратегия состоит в том, чтобы создать индекс (indx_df) с помощью pandas-on-spark, чтобы распараллелить процесс фильтрации, где ядра будут принимать размер фрагментов из indx_df (в данном случае 6 строк за раз)
Этот код — моя последняя попытка, этот остается бездействующим или выполняет задание, но без параллелизма (я пробую его на небольшом простой из оригинал:

Код: Выделить всё

path_table = 'my_path_to_data'
nb_pas_temps_itt = 6
kelvin = 273.15
t2m_min_max = {'min': -10 + kelvin, 'max': 10 + kelvin}

ds = xr.open_dataset(path_era5_time, engine='zarr', consolidated=True, chunks={})

Где ds — это такой xarray:

Код: Выделить всё

time_size = ds.sizes['time']
indx = [pd.Series(np.arange(i, min(i + nb_pas_temps_itt, time_size))) for i in range(0, time_size, nb_pas_temps_itt)]
# to test on small part of the big data ([9:12])
indx_df = ps.DataFrame(indx[9:12])

indx_df выглядит следующим образом:
[img]https://i.sstatic.net /JfjLKu12.png[/img]

Код: Выделить всё

def clean_chunk(idx):
# some filtering to reduce the dataset
ds_bite = ds.isel(time=idx).to_dataframe()
ds_bite = ds_bite[ds_bite['ptype'] != 0]
ds_bite = ds_bite[ds_bite['tp'] > 0.001]
ds_bite = ds_bite.dropna()
ds_bite = ds_bite[ds_bite['t2m'].between(t2m_min_max['min'], t2m_min_max['max'])]
if not ds_bite.empty:
try: # append data if table exist
write_deltalake(f"/mnt/{path_table}/{table_name}", ds_bite, mode="append")

except: #create table if not existing
write_deltalake(f"/mnt/{path_table}/{table_name}", ds_bite)

indx_df.apply(clean_chunk, axis=1)

Я нашел это предложение, добавив подсказки в свое «применить». Но я не уверен, необходимо ли это из-за сохранения моих данных в дельта-таблице и отсутствия возврата кадра данных??

Код: Выделить всё

clean_chunk(idx) -> pd.DataFrame[zip(indx_df.columns, indx_df.dtypes)]

и получил эту ошибку...:
PicklingError: Не удалось сериализовать объект: PySparkRuntimeError: [CONTEXT_ONLY_VALID_ON_DRIVER] Похоже, вы пытаетесь сослаться на SparkContext из широковещательной переменной, действия или преобразования. SparkContext можно использовать только в драйвере, а не в коде, который он запускает на рабочих процессах. Дополнительную информацию см. в разделе SPARK-5063.
Файл /databricks/spark/python/pyspark/serializers.py:559 в CloudPickleSerializer.dumps(self, obj)
558 попробуйте:
--> 559 return cloudpickle.dumps(obj, Pickle_protocol)
560 кроме Pickle.PickleError:
Файл /databricks/spark/python/pyspark/serializers.py:569, в CloudPickleSerializer.dumps(self, obj)
567 msg = «Не удалось сериализовать объект: %s: % s" % (e.класс.имя, emsg)
568 print_exec(sys.stderr)
--> 569 поднять Pickle.PicklingError(msg)
Кто-нибудь заметил проблему? возможно, я полностью ошибаюсь, это моя первая попытка провести параллель с pandas-on-spark

Подробнее здесь: https://stackoverflow.com/questions/792 ... aning-cant

1732896435

Anonymous

Во-первых, я работаю над azure-Databricks, набор данных не может быть загружен в память... так что, возможно, существует другой, более эффективный или более простой способ...
Я пытаюсь использовать Pandas-on-Spark для распараллеливания очистки больших данных. Я пробую многое, но всегда получаю ошибку или код простаивает.
Моя стратегия состоит в том, чтобы создать индекс (indx_df) с помощью pandas-on-spark, чтобы распараллелить процесс фильтрации, где ядра будут принимать размер фрагментов из indx_df (в данном случае 6 строк за раз)
Этот код — моя последняя попытка, этот остается бездействующим или выполняет задание, но без параллелизма (я пробую его на небольшом простой из оригинал:
[code]path_table = 'my_path_to_data'
nb_pas_temps_itt = 6
kelvin = 273.15
t2m_min_max = {'min': -10 + kelvin, 'max': 10 + kelvin}

ds = xr.open_dataset(path_era5_time, engine='zarr', consolidated=True, chunks={})
[/code]
Где ds — это такой xarray:
[img]https://i.sstatic.net/TMXUf2FJ.png[/img]
 
[code]time_size = ds.sizes['time']
indx = [pd.Series(np.arange(i, min(i + nb_pas_temps_itt, time_size))) for i in range(0, time_size, nb_pas_temps_itt)]
# to test on small part of the big data ([9:12])
indx_df = ps.DataFrame(indx[9:12])
[/code]
indx_df выглядит следующим образом:
[img]https://i.sstatic.net /JfjLKu12.png[/img]

[code]
def clean_chunk(idx):
# some filtering to reduce the dataset
ds_bite = ds.isel(time=idx).to_dataframe()
ds_bite = ds_bite[ds_bite['ptype'] != 0]
ds_bite = ds_bite[ds_bite['tp'] > 0.001]
ds_bite = ds_bite.dropna()
ds_bite = ds_bite[ds_bite['t2m'].between(t2m_min_max['min'], t2m_min_max['max'])]
if not ds_bite.empty:
try: # append data if table exist
write_deltalake(f"/mnt/{path_table}/{table_name}", ds_bite, mode="append")

except: #create table if not existing
write_deltalake(f"/mnt/{path_table}/{table_name}", ds_bite)

indx_df.apply(clean_chunk, axis=1)

[/code]
Я нашел это предложение, добавив подсказки в свое «применить». Но я не уверен, необходимо ли это из-за сохранения моих данных в дельта-таблице и отсутствия возврата кадра данных??
[code]clean_chunk(idx) -> pd.DataFrame[zip(indx_df.columns, indx_df.dtypes)]
[/code]
и получил эту ошибку...:
PicklingError: Не удалось сериализовать объект: PySparkRuntimeError: [CONTEXT_ONLY_VALID_ON_DRIVER] Похоже, вы пытаетесь сослаться на SparkContext из широковещательной переменной, действия или преобразования. SparkContext можно использовать только в драйвере, а не в коде, который он запускает на рабочих процессах. Дополнительную информацию см. в разделе SPARK-5063.
Файл /databricks/spark/python/pyspark/serializers.py:559 в CloudPickleSerializer.dumps(self, obj)
558 попробуйте:
--> 559 return cloudpickle.dumps(obj, Pickle_protocol)
560 кроме Pickle.PickleError:
Файл /databricks/spark/python/pyspark/serializers.py:569, в CloudPickleSerializer.dumps(self, obj)
567 msg = «Не удалось сериализовать объект: %s: % s" % (e.[b]класс[/b].[b]имя[/b], emsg)
568 print_exec(sys.stderr)
--> 569 поднять Pickle.PicklingError(msg)
Кто-нибудь заметил проблему? возможно, я полностью ошибаюсь, это моя первая попытка провести параллель с pandas-on-spark 

Подробнее здесь: [url]https://stackoverflow.com/questions/79237712/idle-when-using-pandas-on-spark-apply-to-parallelize-big-data-cleaning-cant[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Оболочка Spark: spark.executor.extraJavaOptions не разрешено устанавливать параметры Spark.

Последнее сообщение Anonymous « 24 сен 2024, 08:55
Добавлено в форуме Python

Anonymous » 24 сен 2024, 08:55 » в форуме Python

Я создал эту программу Spark Shell, но при ее запуске возникла ошибка:
Windows PowerShell
Copyright (C) Microsoft Corporation. All rights reserved.

Install the latest PowerShell for new features and improvements!

PS...

0 Ответы

54 Просмотры

Последнее сообщение Anonymous
24 сен 2024, 08:55
Ошибка очистки Nativescript. Выдает ошибку. Невозможно запустить процесс очистки. Ошибка при сообщении об исключении: Ош

Последнее сообщение Anonymous « 05 июл 2024, 10:43
Добавлено в форуме Android

Anonymous » 05 июл 2024, 10:43 » в форуме Android

Я работаю над проектом NativeScript версии 8.7.2. Версия узла - 22.2.0.
Проблема с командой ns clean. Команды ns build android или ns run android не работают.
ns очистить изображение ошибки
Не удалось собрать проект завершается сбоем из-за этой...

0 Ответы

42 Просмотры

Последнее сообщение Anonymous
05 июл 2024, 10:43
Проблема с производительностью при использовании HPX для распараллеливания в коде C++.

Последнее сообщение Anonymous « 25 янв 2025, 01:19
Добавлено в форуме C++

Anonymous » 25 янв 2025, 01:19 » в форуме C++

Я пытаюсь распараллелить свой код с помощью HPX, чтобы повысить производительность. Ниже приведен исходный код и моя попытка его рефакторинга с использованием HPX.
Исходный код:
std::vector find_mem(std::vector data){
std::string output = ;
Timer...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
25 янв 2025, 01:19
Чтение файла spark-defaults.conf при использовании HTTP-сервера Spark REST с приложением Java

Последнее сообщение Anonymous « 22 окт 2024, 18:42
Добавлено в форуме JAVA

Anonymous » 22 окт 2024, 18:42 » в форуме JAVA

Я использую сервер отдыха Spark для отправки заданий. При отправке приложения pyspark документы устанавливают для mainClass значение org.apache.spark.deploy.SparkSubmit, а затем передают скрипт Python в качестве appArgs. Это означает, что приложение...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
22 окт 2024, 18:42
Чтение файла spark-defaults.conf при использовании HTTP-сервера Spark REST с приложением Java

Последнее сообщение Anonymous « 23 окт 2024, 01:57
Добавлено в форуме JAVA

Anonymous » 23 окт 2024, 01:57 » в форуме JAVA

Я использую сервер отдыха Spark для отправки заданий. При отправке приложения pyspark документы устанавливают для mainClass значение org.apache.spark.deploy.SparkSubmit, а затем передают скрипт Python в качестве appArgs. Это означает, что приложение...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
23 окт 2024, 01:57

Вернуться в «Python»