Есть ли способ использовать Polars Map_batches, чтобы сделать этот код более эффективным? - Цифровое Кемерово

Есть ли способ использовать Polars Map_batches, чтобы сделать этот код более эффективным? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Есть ли способ использовать Polars Map_batches, чтобы сделать этот код более эффективным?

Цитата

Сообщение Anonymous » 03 окт 2024, 20:33

У меня есть полярный код, который функционально может делать то, что я хочу, но я считаю, что это в лучшем случае неэффективная реализация. Я чувствую, что должен быть какой-то способ добиться того же результата с помощью .map_batches(), но не могу понять, как это сделать. Есть мысли или предложения?
В частности, мои данные организованы следующим образом: каждый столбец — это местоположение, а каждая строка — это дата и время. Я пытаюсь вычислить максимальное количество последовательных ненулевых значений (которые я преобразовал в логические значения, потому что мне не нужна величина значения, мне просто нужно знать, равно ли это значение нулю или нет). Пример данных и пример ожидаемого результата ниже:
Пример фиктивных данных
pivoted_df = pl.from_repr("""
┌─────────────────────┬────────────┬────────────┐
│ Date ┆ Location 1 ┆ Location 2 │
│ --- ┆ --- ┆ --- │
│ datetime[ns] ┆ i64 ┆ i64 │
╞═════════════════════╪════════════╪════════════╡
│ 2023-01-01 00:00:00 ┆ 0 ┆ 1 │
│ 2023-01-01 01:00:00 ┆ 1 ┆ 1 │
│ 2023-01-01 02:00:00 ┆ 1 ┆ 1 │
│ 2023-01-01 03:00:00 ┆ 0 ┆ 1 │
│ 2023-01-01 04:00:00 ┆ 1 ┆ 1 │
│ 2023-01-01 05:00:00 ┆ 1 ┆ 0 │
│ 2023-01-01 06:00:00 ┆ 1 ┆ 0 │
└─────────────────────┴────────────┴────────────┘
""")

Ожидаемый результат:
┌────────────┬───────┐
│ Location ┆ Value │
│ --- ┆ --- │
│ str ┆ i32 │
╞════════════╪═══════╡
│ Location 1 ┆ 3 │
│ Location 2 ┆ 5 │
└────────────┴───────┘

Ниже у меня есть код, который функционален, но кажется, что его можно улучшить, если кто-то умнее и лучше разбирается в полярных явлениях, чем я.< /p>
for col in pivoted_df.drop("Date").columns:
xy_cont_df_a = (
pivoted_df.select(pl.col(col))
.with_columns(
pl.when(
pl.col(col).cast(pl.Boolean)
& pl.col(col)
.cast(pl.Boolean)
.shift(-1, fill_value=False)
.not_()
).then(
pl.count().over(
(
pl.col(col).cast(pl.Boolean)
!= pl.col(col).cast(pl.Boolean).shift()
).cum_sum()
)
)
)
.max()
)

Подробнее здесь: https://stackoverflow.com/questions/758 ... -efficient

Реклама

1727976838

Anonymous

У меня есть полярный код, который функционально может делать то, что я хочу, но я считаю, что это в лучшем случае неэффективная реализация. Я чувствую, что должен быть какой-то способ добиться того же результата с помощью .map_batches(), но не могу понять, как это сделать. Есть мысли или предложения?
В частности, мои данные организованы следующим образом: каждый столбец — это местоположение, а каждая строка — это дата и время. Я пытаюсь вычислить максимальное количество последовательных ненулевых значений (которые я преобразовал в логические значения, потому что мне не нужна величина значения, мне просто нужно знать, равно ли это значение нулю или нет). Пример данных и пример ожидаемого результата ниже:
[b]Пример фиктивных данных[/b]
pivoted_df = pl.from_repr("""
┌─────────────────────┬────────────┬────────────┐
│ Date                ┆ Location 1 ┆ Location 2 │
│ ---                 ┆ ---        ┆ ---        │
│ datetime[ns]        ┆ i64        ┆ i64        │
╞═════════════════════╪════════════╪════════════╡
│ 2023-01-01 00:00:00 ┆ 0          ┆ 1          │
│ 2023-01-01 01:00:00 ┆ 1          ┆ 1          │
│ 2023-01-01 02:00:00 ┆ 1          ┆ 1          │
│ 2023-01-01 03:00:00 ┆ 0          ┆ 1          │
│ 2023-01-01 04:00:00 ┆ 1          ┆ 1          │
│ 2023-01-01 05:00:00 ┆ 1          ┆ 0          │
│ 2023-01-01 06:00:00 ┆ 1          ┆ 0          │
└─────────────────────┴────────────┴────────────┘
""")

[b]Ожидаемый результат[/b]:
┌────────────┬───────┐
│ Location   ┆ Value │
│ ---        ┆ ---   │
│ str        ┆ i32   │
╞════════════╪═══════╡
│ Location 1 ┆ 3     │
│ Location 2 ┆ 5     │
└────────────┴───────┘

Ниже у меня есть код, который функционален, но кажется, что его можно улучшить, если кто-то умнее и лучше разбирается в полярных явлениях, чем я.< /p>
for col in pivoted_df.drop("Date").columns:
xy_cont_df_a = (
pivoted_df.select(pl.col(col))
.with_columns(
pl.when(
pl.col(col).cast(pl.Boolean)
& pl.col(col)
.cast(pl.Boolean)
.shift(-1, fill_value=False)
.not_()
).then(
pl.count().over(
(
pl.col(col).cast(pl.Boolean)
!= pl.col(col).cast(pl.Boolean).shift()
).cum_sum()
)
)
)
.max()
)
 

Подробнее здесь: [url]https://stackoverflow.com/questions/75881531/is-there-a-way-to-utilize-polars-map-batches-to-make-this-code-more-efficient[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как сделать код gekko более эффективным

Последнее сообщение Anonymous « 02 авг 2024, 12:54
Добавлено в форуме Python

Anonymous » 02 авг 2024, 12:54 » в форуме Python

Мне нужно решить следующую проблему
eAUT8z0v.png

Я переписал задачу в Gekko на непрерывную оптимизацию вот так:
pt_values = dataframe.select( pt ).to_numpy().ravel()
rt_values= dataframe.select( rt ).to_numpy().ravel()
number_periods = df.shape...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
02 авг 2024, 12:54
Как мне сделать этот код более эффективным с точки зрения временной сложности, поскольку он превысил ограничение по врем

Последнее сообщение Anonymous « 07 окт 2024, 15:49
Добавлено в форуме Python

Anonymous » 07 окт 2024, 15:49 » в форуме Python

Я все еще новичок, поэтому, пожалуйста, помогите мне с этим.
Постановка задачи
1. Вам дано целое число «n».
Найдите сумму делителей для всех «i» от 1 до 'n'.
Пример:
Ввод: 'n' = 5
Выход: 21
Ожидаемая временная сложность:
Попробуйте решить это за O(...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
07 окт 2024, 15:49
Как мне сделать этот код более эффективным с точки зрения временной сложности, поскольку он превысил ограничение по врем

Последнее сообщение Anonymous « 07 окт 2024, 22:12
Добавлено в форуме Python

Anonymous » 07 окт 2024, 22:12 » в форуме Python

Я выполняю упражнение с такой постановкой задачи:

Вам дано целое число 'n'.
Найдите сумму делителя все 'i' от 1 до 'n'.

Пример:

Ввод: 'n' = 5

Вывод: 21

Ожидаемая временная сложность:
Попробуйте решить это за O(sqrt('n')).

Ограничения: 1...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
07 окт 2024, 22:12
Как мне сделать этот код более эффективным с точки зрения временной сложности, поскольку он превысил ограничение по врем

Последнее сообщение Anonymous « 07 окт 2024, 22:46
Добавлено в форуме Python

Anonymous » 07 окт 2024, 22:46 » в форуме Python

Я выполняю упражнение с такой постановкой задачи:

Вам дано целое число 'n'.
Найдите сумму делителя все 'i' от 1 до 'n'.

Пример:

Ввод: 'n' = 5

Вывод: 21

Ожидаемая временная сложность:
Попробуйте решить это за O(sqrt('n')).

Ограничения: 1...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
07 окт 2024, 22:46
Как сделать этот код Java более эффективным?

Последнее сообщение Anonymous « 14 июн 2025, 07:13
Добавлено в форуме JAVA

Anonymous » 14 июн 2025, 07:13 » в форуме JAVA

Я решаю LeetCode Challange 58. Длина последнего слова:

Учитывая строку s , состоящий из слов и пространств, вернуть длина last word> string . Только. 1

Подробнее здесь:

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
14 июн 2025, 07:13

Вернуться в «Python»

Programmiererforum