В Polars: каков правильный эквивалентный код для row_number() over(partition by) в BigQuery SQL? - Цифровое Кемерово

В Polars: каков правильный эквивалентный код для row_number() over(partition by) в BigQuery SQL? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

В Polars: каков правильный эквивалентный код для row_number() over(partition by) в BigQuery SQL?

Цитата

Сообщение Anonymous » 03 дек 2024, 09:34

Я пытаюсь выполнить рефакторинг (перевести) заданный SQL-запрос в скрипт Python, используя библиотеку Polars.

Я застрял в одной строке запроса, где используется функция ROW_NUMBER(), за которой следует функция OVER(PARTITION BY).
Ниже приведена схема таблицы:
product_id (INTEGER)
variant_id (INTEGER)
client_code (VARCHAR)
transaction_date (DATE)
customer_id (INTEGER)
store_id (INTEGER)
invoice_id (VARCHAR)
invoice_line_id (INTEGER)
quantity (NUMERIC)
net_sales_price (NUMERIC)

Ниже приведен SQL-запрос:
SELECT
product_id,
variant_id,
client_code,
transaction_date,

ROW_NUMBER() OVER(
PARTITION BY
product_id, variant_id, store_id, customer_id, client_code
ORDER BY
transaction_date ASC,
invoice_id ASC,
invoice_line_id ASC,
quantity DESC,
net_sales_price ASC
) AS repeat_purchase_seq

FROM transactions

Я пробовал несколько способов, например:
пример 1: использование pl.first().cum_count().over()
new_df = (
df
.sort(['product_id', 'variant_id', 'store_id', 'customer_id', 'client_code','transaction_date', 'invoice_id', 'invoice_line_id',pl.col('quantity').reverse(), 'net_sales_price'])
.with_columns(repeat_purchase_seq = pl.first().cum_count().over(['product_id', 'variant_id', 'store_id', 'customer_id', 'client_code']).flatten())
)

пример 2: использование pl.rank('ordinal').over()
new_df = (
df
.sort(['transaction_date', 'invoice_id', 'invoice_line_id', 'quantity', 'net_sales_price'], descending=[False, False, False, True, False])
.with_columns(repeat_purchase_seq = pl.struct('transaction_date', 'invoice_id', 'invoice_line_id', 'quantity', 'net_sales_price').rank('ordinal').over(['product_id', 'variant_id', 'store_id', 'customer_id', 'client_code']))
)

Оба примера имеют ту или иную проблему.

Я попытался сравнить таблицу, созданную SQL, с фреймом данных, созданным с помощью Polars, из 17 миллионов строк. , имеется около 250 000 несовпадающих строк.
Итак, есть ли лучший способ справиться с этой ситуацией ROW_NUMBER() OVER(PARTITION BY)?
Изменить. Ниже приведен ответ @roman, который помог в моем случае:
partition_by_keys = ["product_id", "variant_id", "store_id", "customer_id", "client_code"]
order_by_keys = ["transaction_date", "invoice_id", "invoice_line_id", "quantity", "net_sales_price"]
order_by_descending = [False, False, False, True, False]

order_by = [-pl.col(col) if desc else pl.col(col) for col, desc in zip(order_by_keys, order_by_descending)]

df.with_columns(
pl.struct(order_by)
.rank("ordinal")
.over(partition_by_keys)
.alias("rn")
)

Подробнее здесь: https://stackoverflow.com/questions/792 ... artition-b

Реклама

1733207663

Anonymous

Я пытаюсь выполнить рефакторинг (перевести) заданный SQL-запрос в скрипт Python, используя библиотеку Polars.

Я застрял в одной строке запроса, где используется функция ROW_NUMBER(), за которой следует функция OVER(PARTITION BY).
Ниже приведена схема таблицы:
product_id (INTEGER)
variant_id (INTEGER)
client_code (VARCHAR)
transaction_date (DATE)
customer_id (INTEGER)
store_id (INTEGER)
invoice_id (VARCHAR)
invoice_line_id (INTEGER)
quantity (NUMERIC)
net_sales_price (NUMERIC)

Ниже приведен SQL-запрос:
SELECT
product_id,
variant_id,
client_code,
transaction_date,

ROW_NUMBER() OVER(
PARTITION BY
product_id, variant_id, store_id, customer_id, client_code
ORDER BY
transaction_date ASC,
invoice_id ASC,
invoice_line_id ASC,
quantity DESC,
net_sales_price ASC
) AS repeat_purchase_seq

FROM transactions

Я пробовал несколько способов, например:
пример 1: использование pl.first().cum_count().over()
new_df = (
df
.sort(['product_id', 'variant_id', 'store_id', 'customer_id', 'client_code','transaction_date', 'invoice_id', 'invoice_line_id',pl.col('quantity').reverse(), 'net_sales_price'])
.with_columns(repeat_purchase_seq = pl.first().cum_count().over(['product_id', 'variant_id', 'store_id', 'customer_id', 'client_code']).flatten())
)

пример 2: использование pl.rank('ordinal').over()
new_df = (
df
.sort(['transaction_date', 'invoice_id', 'invoice_line_id', 'quantity', 'net_sales_price'], descending=[False, False, False, True, False])
.with_columns(repeat_purchase_seq = pl.struct('transaction_date', 'invoice_id', 'invoice_line_id', 'quantity', 'net_sales_price').rank('ordinal').over(['product_id', 'variant_id', 'store_id', 'customer_id', 'client_code']))
)

Оба примера имеют ту или иную проблему.

Я попытался сравнить таблицу, созданную SQL, с фреймом данных, созданным с помощью Polars, из 17 миллионов строк. , имеется около 250 000 несовпадающих строк.
Итак, есть ли лучший способ справиться с этой ситуацией ROW_NUMBER() OVER(PARTITION BY)?
[b]Изменить. Ниже приведен ответ @roman, который помог в моем случае:[/b]
partition_by_keys = ["product_id", "variant_id", "store_id", "customer_id", "client_code"]
order_by_keys = ["transaction_date", "invoice_id", "invoice_line_id", "quantity", "net_sales_price"]
order_by_descending = [False, False, False, True, False]

order_by = [-pl.col(col) if desc else pl.col(col) for col, desc in zip(order_by_keys, order_by_descending)]

df.with_columns(
pl.struct(order_by)
.rank("ordinal")
.over(partition_by_keys)
.alias("rn")
)
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79225773/in-polars-what-is-the-correct-equivalent-code-for-row-number-overpartition-b[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

В Polars: каков правильный эквивалентный код для row_number() over(partition by) в BigQuery SQL?

Последнее сообщение Anonymous « 26 ноя 2024, 10:50
Добавлено в форуме Python

Anonymous » 26 ноя 2024, 10:50 » в форуме Python

Я пытаюсь выполнить рефакторинг (перевести) заданный SQL-запрос в скрипт Python, используя библиотеку Polars.

Я застрял в одной строке запроса, где используется функция ROW_NUMBER(), за которой следует функция OVER(PARTITION BY).
Ниже приведена...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
26 ноя 2024, 10:50
В Polars: каков правильный эквивалентный код для row_number() over(partition by) в BigQuery SQL?

Последнее сообщение Anonymous « 26 ноя 2024, 12:16
Добавлено в форуме Python

Anonymous » 26 ноя 2024, 12:16 » в форуме Python

Я пытаюсь выполнить рефакторинг (перевести) заданный SQL-запрос в скрипт Python, используя библиотеку Polars.

Я застрял в одной строке запроса, где используется функция ROW_NUMBER(), за которой следует функция OVER(PARTITION BY).
Ниже приведена...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
26 ноя 2024, 12:16
В Polars: каков правильный эквивалентный код для row_number() over(partition by) в BigQuery SQL?

Последнее сообщение Anonymous « 26 ноя 2024, 13:42
Добавлено в форуме Python

Anonymous » 26 ноя 2024, 13:42 » в форуме Python

Я пытаюсь выполнить рефакторинг (перевести) заданный SQL-запрос в скрипт Python, используя библиотеку Polars.

Я застрял в одной строке запроса, где используется функция ROW_NUMBER(), за которой следует функция OVER(PARTITION BY).
Ниже приведена...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
26 ноя 2024, 13:42
В Polars: каков правильный эквивалентный код для row_number() over(partition by) в BigQuery SQL?

Последнее сообщение Anonymous « 26 ноя 2024, 20:28
Добавлено в форуме Python

Anonymous » 26 ноя 2024, 20:28 » в форуме Python

Я пытаюсь выполнить рефакторинг (перевести) заданный SQL-запрос в скрипт Python, используя библиотеку Polars.

Я застрял в одной строке запроса, где используется функция ROW_NUMBER(), за которой следует функция OVER(PARTITION BY).
Ниже приведена...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
26 ноя 2024, 20:28
В Polars: каков правильный эквивалентный код для row_number() over(partition by) в BigQuery SQL?

Последнее сообщение Anonymous « 27 ноя 2024, 10:58
Добавлено в форуме Python

Anonymous » 27 ноя 2024, 10:58 » в форуме Python

Я пытаюсь выполнить рефакторинг (перевести) заданный SQL-запрос в скрипт Python, используя библиотеку Polars.

Я застрял в одной строке запроса, где используется функция ROW_NUMBER(), за которой следует функция OVER(PARTITION BY).
Ниже приведена...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
27 ноя 2024, 10:58

Вернуться в «Python»

Programmiererforum