Как оптимизировать вычисление полей для большого набора данных в записных книжках Azure Synapse Spark с накопительной су

Как оптимизировать вычисление полей для большого набора данных в записных книжках Azure Synapse Spark с накопительной су ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как оптимизировать вычисление полей для большого набора данных в записных книжках Azure Synapse Spark с накопительной су

Цитата

Сообщение Anonymous » 23 ноя 2024, 08:51

У меня есть набор данных с более чем 3 миллионами записей и несколькими столбцами. Вот образец моего набора данных:

< tr>
item
item_base
дата
quantity_1
quantity_2

1
20
202410
600
7493

< td>1
20
202411
17000
16431

Каждый item-item_base-date создает уникальный ключ. Мне нужно вычислить новый столбец «фактическое_значение» на основе следующей логики:
Предположим, у нас есть операция ранжирования таблицы для item-item_base и порядок по дате, тогда

Для ранга = 1 фактическое_значение = количество_1,
Для ранга = 2 фактическое_значение = количество_1 – количество_2.
Для ранга > 2 фактическое_значение = количество_1 - сумма(все предыдущее количество_1) - сумма(все предыдущее количество_2) - сумма(все предыдущее фактическое_значение)
Вот мой подход к решению этой проблемы:
Сначала я создаю 2 дополнительных столбца cumulative_1 и cumulative_2, которые по сути представляют собой сумму количества_1 и количество_2 с использованием окон sql.

Код: Выделить всё

SUM(quantity_1) OVER(PARTITION BY item, item_base ORDER BY date ROWS BETWEEN UNBOUNDED PRECEIDING AND 1 PRECEDING) as cumulative_1 и так далее. Кроме того, я создаю столбец ранга в качестве идентификатора row_no.
Spark не поддерживает рекурсивные CTE, поэтому реализация sum(all prev fact_value)

утомительна. Мне пришлось переключиться на фрейм данных pandas, чтобы завершить расчеты. Вот мой код:

Код: Выделить всё

my_df = df.toPandas()
my_df['actual_value'] = 0.0

for i in range(len(my_df)):
if my_df.at[i, 'rank'] == 1:
my_df.at[i, 'actual_value'] = my_df.at[i, 'quantity_1']
elif my_df.at[i, 'rank'] == 2:
my_df.at[i, 'actual_value'] = my_df.at[i, 'quantity_1'] - my_df.at[i, 'quantity_2']
else:
previous_actual_values = my_df.loc[(my_df['item'] == my_df.at[i, 'item']) &
(my_df['item_base'] == my_df.at[i, 'item_base']) &
(my_df['date'] < my_df.at[i, 'date']), 'actual_value'].sum()

my_df.at[i, 'actual_value'] = my_df.at[i, 'quantity_1'] - my_df.at[i, 'cumulative_2'] - my_df.at[i, 'cumulative_1'] - previous_actual_values

if my_df.at[i, 'actual_value'] < 0:
my_df.at[i, 'actual_value'] = 0

Код выполняет свою работу и выдает правильный результат.

Код: Выделить всё

item        | item_base| date    | quantity_1 | quantity_2 | cumulative_1 | cumulative_2 | rank | actual_value
------------|----------|---------|------------|------------|--------------|--------------|------|--------------
1           | 20       | 202410  | 600        | 7493       |              |              | 1    | 600
1           | 20       | 202411  | 17000      | 16431      | 600          | 7493         | 2    | 569
1           | 20       | 202412  | 785        | 24456      | 17600        | 23924        | 3    | 0
1           | 20       | 202501  | 0          | 25775      | 18385        | 48380        | 4    | 0
1           | 20       | 202502  |            | 26131      | 18385        | 74155        | 5    |
1           | 20       | 202503  | 0          | 39452      | 18385        | 100286       | 6    | 0
1           | 20       | 202504  |            | 38087      | 18385        | 139738       | 7    |
1           | 20       | 202505  | 2856       | 28916      | 18385        | 177825       | 8    | 0
1           | 20       | 202506  | 500000     | 42254      | 21241        | 206741       | 9    | 270849
1           | 20       | 202507  |            | 36776      | 521241       | 248995       | 10   |
1           | 20       | 202508  | 660        | 23523      | 521241       | 285771       | 11   | 0
1           | 20       | 202509  | 1316000    | 25543      | 521901       | 309294       | 12   | 212787
1           | 20       | 202510  | 265220     | 30589      | 1837901      | 334837       | 13   | 0
1           | 20       | 202511  | 47580      |            | 1864421      | 365426       | 14   | 0

Теперь проблема. Поскольку мне приходится использовать pandas, коду требуется целая вечность, чтобы работать с большими наборами данных. Мне нужно либо найти способ сделать это в самом Spark, либо повысить эффективность приведенного выше кода. Я рассматривал возможность векторизации вычислений, но изо всех сил пытаюсь найти эффективный способ вычисления совокупного фактического_значения для строк, где ранг > 2.
РЕДАКТИРОВАТЬ: я не могу исправить формат таблицу вывода, вот скриншот вывода:

Подробнее здесь: https://stackoverflow.com/questions/792 ... park-noteb

1732341090

Anonymous

У меня есть набор данных с более чем 3 миллионами записей и несколькими столбцами. Вот образец моего набора данных:


< tr>
item
item_base
дата
quantity_1
quantity_2




1
20
202410
600
7493


< td>1
20
202411
17000
16431



Каждый item-item_base-date создает уникальный ключ. Мне нужно вычислить новый столбец «фактическое_значение» на основе следующей логики:
Предположим, у нас есть операция ранжирования таблицы для item-item_base и порядок по дате, тогда

Для ранга = 1 фактическое_значение = количество_1,
Для ранга = 2 фактическое_значение = количество_1 – количество_2.
Для ранга > 2 фактическое_значение = количество_1 - сумма(все предыдущее количество_1) - сумма(все предыдущее количество_2) - сумма(все предыдущее фактическое_значение)
Вот мой подход к решению этой проблемы:
Сначала я создаю 2 дополнительных столбца cumulative_1 и cumulative_2, которые по сути представляют собой сумму количества_1 и количество_2 с использованием окон sql.

[code]SUM(quantity_1) OVER(PARTITION BY item, item_base ORDER BY date ROWS BETWEEN UNBOUNDED PRECEIDING AND 1 PRECEDING) as cumulative_1 и так далее. Кроме того, я создаю столбец ранга в качестве идентификатора row_no.
Spark не поддерживает рекурсивные CTE, поэтому реализация sum(all prev fact_value)[/code] утомительна. Мне пришлось переключиться на фрейм данных pandas, чтобы завершить расчеты. Вот мой код:
[code]my_df = df.toPandas()
my_df['actual_value'] = 0.0

for i in range(len(my_df)):
if my_df.at[i, 'rank'] == 1:
my_df.at[i, 'actual_value'] = my_df.at[i, 'quantity_1']
elif my_df.at[i, 'rank'] == 2:
my_df.at[i, 'actual_value'] = my_df.at[i, 'quantity_1'] - my_df.at[i, 'quantity_2']
else:
previous_actual_values = my_df.loc[(my_df['item'] == my_df.at[i, 'item']) &
(my_df['item_base'] == my_df.at[i, 'item_base']) &
(my_df['date'] < my_df.at[i, 'date']), 'actual_value'].sum()

my_df.at[i, 'actual_value'] = my_df.at[i, 'quantity_1'] - my_df.at[i, 'cumulative_2'] - my_df.at[i, 'cumulative_1'] - previous_actual_values

if my_df.at[i, 'actual_value'] < 0:
my_df.at[i, 'actual_value'] = 0

[/code]
Код выполняет свою работу и выдает правильный результат.

[code]item        | item_base| date    | quantity_1 | quantity_2 | cumulative_1 | cumulative_2 | rank | actual_value
------------|----------|---------|------------|------------|--------------|--------------|------|--------------
1           | 20       | 202410  | 600        | 7493       |              |              | 1    | 600
1           | 20       | 202411  | 17000      | 16431      | 600          | 7493         | 2    | 569
1           | 20       | 202412  | 785        | 24456      | 17600        | 23924        | 3    | 0
1           | 20       | 202501  | 0          | 25775      | 18385        | 48380        | 4    | 0
1           | 20       | 202502  |            | 26131      | 18385        | 74155        | 5    |
1           | 20       | 202503  | 0          | 39452      | 18385        | 100286       | 6    | 0
1           | 20       | 202504  |            | 38087      | 18385        | 139738       | 7    |
1           | 20       | 202505  | 2856       | 28916      | 18385        | 177825       | 8    | 0
1           | 20       | 202506  | 500000     | 42254      | 21241        | 206741       | 9    | 270849
1           | 20       | 202507  |            | 36776      | 521241       | 248995       | 10   |
1           | 20       | 202508  | 660        | 23523      | 521241       | 285771       | 11   | 0
1           | 20       | 202509  | 1316000    | 25543      | 521901       | 309294       | 12   | 212787
1           | 20       | 202510  | 265220     | 30589      | 1837901      | 334837       | 13   | 0
1           | 20       | 202511  | 47580      |            | 1864421      | 365426       | 14   | 0
[/code]
Теперь проблема. Поскольку мне приходится использовать pandas, коду требуется целая вечность, чтобы работать с большими наборами данных. Мне нужно либо найти способ сделать это в самом Spark, либо повысить эффективность приведенного выше кода.  Я рассматривал возможность векторизации вычислений, но изо всех сил пытаюсь найти эффективный способ вычисления совокупного фактического_значения для строк, где ранг > 2.
РЕДАКТИРОВАТЬ: я не могу исправить формат таблицу вывода, вот скриншот вывода:
[img]https://i.sstatic.net/wiVH58BY.png[/img]
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79212130/how-to-optimize-field-calculation-for-large-dataset-in-azure-synapse-spark-noteb[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как реализовать контроль выполнения ячеек и оповещения JavaScript в записных книжках Azure Databricks?

Последнее сообщение Anonymous « 18 май 2024, 19:46
Добавлено в форуме Python

Anonymous » 18 май 2024, 19:46 » в форуме Python

Я пытаюсь воспроизвести в записных книжках Azure Databricks некоторые функции, которые я ранее использовал в записных книжках Jupyter, в частности, связанные с управлением видимостью ячеек записной книжки, отображением предупреждений JavaScript и...

0 Ответы

37 Просмотры

Последнее сообщение Anonymous
18 май 2024, 19:46
Чтение PDF-файла с помощью записных книжек Azure Synapse

Последнее сообщение Гость « 02 мар 2024, 12:29
Добавлено в форуме Python

Гость » 02 мар 2024, 12:29 » в форуме Python

It's my first post, asking for a help, before I usually used examples from Stack overflow, but can't find and answer. I am sorry, if the formatting of my post is not great, will try to improve it for the future.

I am struggling with reading PDF...

0 Ответы

19 Просмотры

Последнее сообщение Гость
02 мар 2024, 12:29
Использование %debug в записных книжках VSCode/Jupyter

Последнее сообщение Anonymous « 18 окт 2024, 08:08
Добавлено в форуме Python

Anonymous » 18 окт 2024, 08:08 » в форуме Python

Я могу найти много подобных вопросов, но после нескольких поисков так и не смог найти, как использовать %debug в VSCode.
Что я могу сделать:

Щелкните правой кнопкой мыши по ячейке и запустите ее в режиме отладки.

Что я не могу сделать:...

0 Ответы

26 Просмотры

Последнее сообщение Anonymous
18 окт 2024, 08:08
Как свернуть все ячейки по умолчанию в записных книжках Jupyter в коде Visual Studio?

Последнее сообщение Anonymous « 18 ноя 2024, 09:21
Добавлено в форуме Python

Anonymous » 18 ноя 2024, 09:21 » в форуме Python

Я использую блокноты Jupyter в Visual Studio Code, и мне хотелось бы, чтобы все ячейки (как входные, так и выходные) сворачивались по умолчанию при открытии блокнота. Это позволит мне иметь более четкое представление о моем блокноте, особенно если в...

0 Ответы

28 Просмотры

Последнее сообщение Anonymous
18 ноя 2024, 09:21
Как свернуть все ячейки по умолчанию в записных книжках Jupyter в коде Visual Studio?

Последнее сообщение Anonymous « 19 ноя 2024, 19:02
Добавлено в форуме Python

Anonymous » 19 ноя 2024, 19:02 » в форуме Python

Я использую блокноты Jupyter в Visual Studio Code, и мне хотелось бы, чтобы все ячейки (как входные, так и выходные) сворачивались по умолчанию при открытии блокнота. Это позволит мне иметь более четкое представление о моем блокноте, особенно если в...

0 Ответы

28 Просмотры

Последнее сообщение Anonymous
19 ноя 2024, 19:02

Вернуться в «Python»