Какой самый быстрый способ построить/создавать дату DataFrame Python Polars из функции, которая возвращает несколько стр

Какой самый быстрый способ построить/создавать дату DataFrame Python Polars из функции, которая возвращает несколько стр ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Какой самый быстрый способ построить/создавать дату DataFrame Python Polars из функции, которая возвращает несколько стр

Цитата

Сообщение Anonymous » 24 янв 2025, 17:48

У меня есть функция, которая вызывает цикл, который генерирует новые строки данных, 4 за раз. Я пытаюсь превратить все строки, сгенерированные в DataFrame Polars как можно быстрее. Каждая партия новых рядов. Затем он экземпляет поляр DataFrame из списка кортежей.
текущий код

Код: Выделить всё

rows = []

def make_df(x):
for data in x: # This loops ~500k times
new_rows = process(data) # 4 new rows created
# new_rows is a tuple of length 4
# Each element (row) of the tuple is another tuple of length 10
rows.extend(new_rows)

return pl.DataFrame(rows, orient='row') # This line is very slow (4-5 sec)
< /code>
Для моего DataFrame (около 2 миллионов строк, 10 столбцов), это занимает ~ 4-5 секунд, чтобы создать DF. Это кажется медленным, и мне интересно, есть ли более быстрый способ сделать это. Я пытался использовать генератор (пример ниже), но, похоже, он занимает столько же времени, может быть, даже немного медленнее. < /P>
[b] генератор (не работает быстрее) [/b] 
def g(x):
for data in x: # This loops ~500k times
new_rows = process(data) # 4 new rows created
# new_rows is a tuple of length 4
# Each element of the tuple is another tuple of length 10
yield new_rows[0]
yield new_rows[1]
yield new_rows[2]
yield new_rows[3]

def make_df(x):
return pl.DataFrame(g(x), orient='row') # Slows down the loop by 5-6 seconds

Есть ли более быстрый способ сделать это?
Обновить
Воспроизводимый пример ниже:

Код: Выделить всё

import polars as pl
import datetime
date = datetime.datetime(2024, 7, 14, 12, 30)
rows = []

def make_df():
for data in range(500000): # This loops ~500k times
new_row = (1, date, 3, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, date)
new_rows = ((new_row),) * 4  # 4 new rows created
# new_rows is a tuple of length 4
# Each element (row) of the tuple is another tuple of length 10
rows.extend(new_rows)

return pl.DataFrame(
rows,
orient='row',
schema={
'a': pl.Int64,
'b': pl.Datetime,
'c': pl.Int64,
'd': pl.Float64,
'e': pl.Float64,
'f': pl.Float64,
'g': pl.Float64,
'h': pl.Float64,
'i': pl.Float64,
'j': pl.Datetime,
},
)  # This line is very slow (4-5 sec)

make_df()

Обновление 2
кажется, что это замедление связано с созданием экземпляров столбцов DateTime . Производительность в этом отношении была значительно улучшена, когда я обновил свой поляры с 1.17.1 до 1.20.0 .

Подробнее здесь: https://stackoverflow.com/questions/793 ... -from-a-fu

1737730090

Anonymous

 У меня есть функция, которая вызывает цикл, который генерирует новые строки данных, 4 за раз. Я пытаюсь превратить все строки, сгенерированные в DataFrame Polars как можно быстрее. Каждая партия новых рядов. Затем он экземпляет поляр DataFrame из списка кортежей. 
[b] текущий код [/b] 
[code]rows = []

def make_df(x):
for data in x: # This loops ~500k times
new_rows = process(data) # 4 new rows created
# new_rows is a tuple of length 4
# Each element (row) of the tuple is another tuple of length 10
rows.extend(new_rows)

return pl.DataFrame(rows, orient='row') # This line is very slow (4-5 sec)
< /code>
Для моего DataFrame (около 2 миллионов строк, 10 столбцов), это занимает ~ 4-5 секунд, чтобы создать DF. Это кажется медленным, и мне интересно, есть ли более быстрый способ сделать это. Я пытался использовать генератор (пример ниже), но, похоже, он занимает столько же времени, может быть, даже немного медленнее. < /P>
[b] генератор (не работает быстрее) [/b] 
def g(x):
for data in x: # This loops ~500k times
new_rows = process(data) # 4 new rows created
# new_rows is a tuple of length 4
# Each element of the tuple is another tuple of length 10
yield new_rows[0]
yield new_rows[1]
yield new_rows[2]
yield new_rows[3]

def make_df(x):
return pl.DataFrame(g(x), orient='row') # Slows down the loop by 5-6 seconds
[/code]
Есть ли более быстрый способ сделать это?
[b]Обновить[/b]
Воспроизводимый пример ниже:
[code]import polars as pl
import datetime
date = datetime.datetime(2024, 7, 14, 12, 30)
rows = []

def make_df():
for data in range(500000): # This loops ~500k times
new_row = (1, date, 3, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, date)
new_rows = ((new_row),) * 4  # 4 new rows created
# new_rows is a tuple of length 4
# Each element (row) of the tuple is another tuple of length 10
rows.extend(new_rows)

return pl.DataFrame(
rows,
orient='row',
schema={
'a': pl.Int64,
'b': pl.Datetime,
'c': pl.Int64,
'd': pl.Float64,
'e': pl.Float64,
'f': pl.Float64,
'g': pl.Float64,
'h': pl.Float64,
'i': pl.Float64,
'j': pl.Datetime,
},
)  # This line is very slow (4-5 sec)

make_df()
[/code]
[b] Обновление 2 [/b]
кажется, что это замедление связано с созданием экземпляров столбцов DateTime . Производительность в этом отношении была значительно улучшена, когда я обновил свой поляры  с 1.17.1  до 1.20.0 .  

Подробнее здесь: [url]https://stackoverflow.com/questions/79380272/what-is-the-fastest-way-to-build-instantiate-a-python-polars-dataframe-from-a-fu[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Какой самый быстрый способ построить/создавать дату DataFrame Python Polars из функции, которая возвращает несколько стр

Последнее сообщение Anonymous « 24 янв 2025, 04:09
Добавлено в форуме Python

Anonymous » 24 янв 2025, 04:09 » в форуме Python

У меня есть функция, которая вызывает цикл, который генерирует новые строки данных, 4 за раз. Я пытаюсь превратить все строки, сгенерированные в DataFrame Polars как можно быстрее. Каждая партия новых рядов. Затем он экземпляет поляр DataFrame из...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
24 янв 2025, 04:09
Каков самый быстрый способ создания/создания экземпляра кадра данных Python Polars из функции, которая возвращает нескол

Последнее сообщение Anonymous « 24 янв 2025, 14:02
Добавлено в форуме Python

Anonymous » 24 янв 2025, 14:02 » в форуме Python

У меня есть функция, которая вызывает цикл, генерирующий новые строки данных, по 4 за раз. Я пытаюсь как можно быстрее превратить все сгенерированные строки в фрейм данных Polars.
Мой текущий код создает список строк (кортежей) для DataFrame и...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
24 янв 2025, 14:02
Самый быстрый способ отобразить столбец из уникального ключа DataFrame до дублированного спускаемого DataFrame

Последнее сообщение Anonymous « 13 фев 2025, 11:46
Добавлено в форуме Python

Anonymous » 13 фев 2025, 11:46 » в форуме Python

У меня есть два DataFrames:

A : содержит уникальные (A1, A2) пары и столбец d с числовыми значениями.
B : содержит (a1, a2) пары, но позволяет дубликаты. > от до b на основе ключей (A1, A2) .
В настоящее время я использую следующий подход...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
13 фев 2025, 11:46
Самый быстрый способ отобразить столбец из уникального ключа DataFrame до дублированного спускаемого DataFrame

Последнее сообщение Anonymous « 13 фев 2025, 12:24
Добавлено в форуме Python

Anonymous » 13 фев 2025, 12:24 » в форуме Python

У меня есть два DataFrames:

A : содержит уникальные (A1, A2) пары и столбец d с числовыми значениями.
B : содержит (a1, a2) пары, но позволяет дубликаты. > от до b на основе ключей (A1, A2) .
В настоящее время я использую следующий подход...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
13 фев 2025, 12:24
Как сохранить несколько выбранных идентификаторов мультимедиа из CuratorPicker в сводную таблицу на пользовательской стр

Последнее сообщение Anonymous « 16 янв 2025, 01:26
Добавлено в форуме Php

Anonymous » 16 янв 2025, 01:26 » в форуме Php

Я работаю над собственной страницей в Filament PHP под названием AboutUs. Страница позволяет пользователям выбирать несколько элементов мультимедиа с помощью компонента CuratorPicker из пакета Awcodes\Curator. Мне нужно сохранить заголовок и...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
16 янв 2025, 01:26

Вернуться в «Python»