В чем разница между Polars.collect_all и Polars.LazyFrame.collect

В чем разница между Polars.collect_all и Polars.LazyFrame.collect ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

В чем разница между Polars.collect_all и Polars.LazyFrame.collect

Цитата

Сообщение Anonymous » 19 окт 2024, 23:34

Начнем с примера ниже:

Код: Выделить всё

import time
import numpy as np
import polars as pl

n_index = 1000
n_a = 10
n_b = 500
n_obs = 5000000

df = pl.DataFrame(
{
"id": np.random.randint(0, n_index, size=n_obs),
"a": np.random.randint(0, n_a, size=n_obs),
"b": np.random.randint(0, n_b, size=n_obs),
"x": np.random.normal(0, 1, n_obs),
}
).lazy()

dfs = [
pl.DataFrame(
{
"id": np.random.randint(0, n_index, size=n_obs),
"a": np.random.randint(0, n_a, size=n_obs),
f"b_{i}": np.random.randint(0, n_b, size=n_obs),
"x": np.random.normal(0, 1, n_obs),
}
).lazy()
for i in range(50)
]

res = [
df.join(
dfs[i], left_on=["id", "a", "b"], right_on=["id", "a", f"b_{i}"], how="inner"
)
.group_by("a", "b")
.agg((pl.col("x") * pl.col("x_right")).sum().alias(f"x_{i}"))
for i in range(50)
]

На самом деле задача состоит в том, чтобы обработать разные кадры данных, выполнить над ними некоторые вычисления, а затем объединить все результаты. Приведенный выше код создает res, который содержит все результаты в виде списка.
Что касается объединения результатов, я попробовал два следующих варианта.
Вариант 1:

Код: Выделить всё

start = time.perf_counter()
res2 = pl.collect_all(res)
res3 = res2[0]
for i in range(1, 50):
res3 = res3.join(res2[i], on=["a", "b"])
time.perf_counter() - start

Вариант 2:

Код: Выделить всё

start = time.perf_counter()
res4 = res[0]
for i in range(1, 50):
res4 = res4.join(res[i], on=["a", "b"])
res4 = res4.collect()
time.perf_counter() - start

Вариант 1 сначала выполняет сбор_все, а затем объединяет все отдельные кадры данных.
Вариант 2 просто выполняет все действия совершенно ленивым способом и выполняет сбор в самый конец.
Насколько я знаю, Collect будет выполнять внутреннюю оптимизацию, и я должен ожидать, что вариант 1 и вариант 2 будут иметь одинаковую производительность. Однако результаты моего сравнительного анализа показывают, что вариант 2 занимает вдвое больше времени, чем вариант 1 (21 с против 10 с в моей системе с 32 ядрами).
Итак, < Strong>Соответствует ли такое поведение ожиданиям? Или есть какие-то неэффективные подходы, которые я использовал?
Одна хорошая вещь в варианте 2 заключается в том, что он совершенно ленив, и это предпочтительный подход в случае, когда мы хотим иметь полностью ленивый API, возвращающий ленивый фрейм данных и позволяющий пользователям определять, что делать дальше. Но, согласно моему эксперименту, производительность во многом приносится в жертву. Итак, интересно, есть ли способ сделать что-то вроде варианта 2, не жертвуя при этом производительностью (производительностью, сравнимой с вариантом 1)?

Подробнее здесь: https://stackoverflow.com/questions/759 ... me-collect

1729370095

Anonymous

Начнем с примера ниже:
[code]import time
import numpy as np
import polars as pl

n_index = 1000
n_a = 10
n_b = 500
n_obs = 5000000

df = pl.DataFrame(
{
"id": np.random.randint(0, n_index, size=n_obs),
"a": np.random.randint(0, n_a, size=n_obs),
"b": np.random.randint(0, n_b, size=n_obs),
"x": np.random.normal(0, 1, n_obs),
}
).lazy()

dfs = [
pl.DataFrame(
{
"id": np.random.randint(0, n_index, size=n_obs),
"a": np.random.randint(0, n_a, size=n_obs),
f"b_{i}": np.random.randint(0, n_b, size=n_obs),
"x": np.random.normal(0, 1, n_obs),
}
).lazy()
for i in range(50)
]

res = [
df.join(
dfs[i], left_on=["id", "a", "b"], right_on=["id", "a", f"b_{i}"], how="inner"
)
.group_by("a", "b")
.agg((pl.col("x") * pl.col("x_right")).sum().alias(f"x_{i}"))
for i in range(50)
]
[/code]
На самом деле задача состоит в том, чтобы обработать разные кадры данных, выполнить над ними некоторые вычисления, а затем объединить все результаты. Приведенный выше код создает res, который содержит все результаты в виде списка.
Что касается объединения результатов, я попробовал два следующих варианта.
Вариант 1:
[code]start = time.perf_counter()
res2 = pl.collect_all(res)
res3 = res2[0]
for i in range(1, 50):
res3 = res3.join(res2[i], on=["a", "b"])
time.perf_counter() - start
[/code]
Вариант 2:
[code]start = time.perf_counter()
res4 = res[0]
for i in range(1, 50):
res4 = res4.join(res[i], on=["a", "b"])
res4 = res4.collect()
time.perf_counter() - start
[/code]
Вариант 1 сначала выполняет сбор_все, а затем объединяет все отдельные кадры данных.
Вариант 2 просто выполняет все действия совершенно ленивым способом и выполняет сбор в самый конец.
Насколько я знаю, Collect будет выполнять внутреннюю оптимизацию, и я должен ожидать, что вариант 1 и вариант 2 будут иметь одинаковую производительность. Однако результаты моего сравнительного анализа показывают, что [b]вариант 2 занимает вдвое больше времени, чем вариант 1 (21 с против 10 с в моей системе с 32 ядрами)[/b].
Итак, < Strong>Соответствует ли такое поведение ожиданиям? Или есть какие-то неэффективные подходы, которые я использовал?
Одна хорошая вещь в варианте 2 заключается в том, что он совершенно ленив, и это предпочтительный подход в случае, когда мы хотим иметь полностью ленивый API, возвращающий ленивый фрейм данных и позволяющий пользователям определять, что делать дальше. Но, согласно моему эксперименту, производительность во многом приносится в жертву. Итак, [b]интересно, есть ли способ сделать что-то вроде варианта 2, не жертвуя при этом производительностью (производительностью, сравнимой с вариантом 1)?[/b] 

Подробнее здесь: [url]https://stackoverflow.com/questions/75979236/what-is-the-difference-between-polars-collect-all-and-polars-lazyframe-collect[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Python Polars: Как добавить столбцы в одну LazyFrame в другой LazyFrame?

Последнее сообщение Anonymous « 05 фев 2025, 15:18
Добавлено в форуме Python

Anonymous » 05 фев 2025, 15:18 » в форуме Python

У меня есть LazyFrame в Python, и я хотел бы добавить в него столбцы из другого LazyFrame . Два LazyFrames имеют одинаковое количество строк и разных столбцов. >def append_columns(df:pl.LazyFrame):
df2 = pl.LazyFrame( )
return df.with_columns(df2)...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
05 фев 2025, 15:18
Android [ksp] java.lang.NoSuchMethodError: 'com.google.common.collect.ImmutableMap com.google.common.collect.ImmutableMa

Последнее сообщение Anonymous « 15 окт 2024, 07:02
Добавлено в форуме JAVA

Anonymous » 15 окт 2024, 07:02 » в форуме JAVA

Я обновляю библиотеки до последней версии и включаю jvm до 17, но до сих пор проблема заключалась в том, что java.lang.NoSuchMethodError: 'com.google.common.collect.ImmutableMap com.google.common.collect .ImmutableMap$Builder.buildOrThrow()'
Я уже...

0 Ответы

39 Просмотры

Последнее сообщение Anonymous
15 окт 2024, 07:02
Android [ksp] java.lang.NoSuchMethodError: 'com.google.common.collect.ImmutableMap com.google.common.collect.ImmutableMa

Последнее сообщение Anonymous « 15 окт 2024, 07:02
Добавлено в форуме Android

Anonymous » 15 окт 2024, 07:02 » в форуме Android

Я обновляю библиотеки до последней версии и включаю jvm до 17, но до сих пор проблема заключалась в том, что java.lang.NoSuchMethodError: 'com.google.common.collect.ImmutableMap com.google.common.collect .ImmutableMap$Builder.buildOrThrow()'
Я уже...

0 Ответы

39 Просмотры

Последнее сообщение Anonymous
15 окт 2024, 07:02
Android [ksp] java.lang.NoSuchMethodError: 'com.google.common.collect.ImmutableMap com.google.common.collect.ImmutableMa

Последнее сообщение Anonymous « 27 дек 2024, 02:40
Добавлено в форуме JAVA

Anonymous » 27 дек 2024, 02:40 » в форуме JAVA

Я обновляю библиотеки до последней версии и включаю jvm до 17, но до сих пор проблема заключалась в том, что java.lang.NoSuchMethodError: 'com.google.common.collect.ImmutableMap com.google.common.collect .ImmutableMap$Builder.buildOrThrow()'
я уже...

0 Ответы

35 Просмотры

Последнее сообщение Anonymous
27 дек 2024, 02:40
Android [ksp] java.lang.NoSuchMethodError: 'com.google.common.collect.ImmutableMap com.google.common.collect.ImmutableMa

Последнее сообщение Anonymous « 27 дек 2024, 02:40
Добавлено в форуме Android

Anonymous » 27 дек 2024, 02:40 » в форуме Android

Я обновляю библиотеки до последней версии и включаю jvm до 17, но до сих пор проблема заключалась в том, что java.lang.NoSuchMethodError: 'com.google.common.collect.ImmutableMap com.google.common.collect .ImmutableMap$Builder.buildOrThrow()'
я уже...

0 Ответы

41 Просмотры

Последнее сообщение Anonymous
27 дек 2024, 02:40

Вернуться в «Python»