Каков самый быстрый способ выполнить «индексированный» поиск в Polars? - Цифровое Кемерово

Каков самый быстрый способ выполнить «индексированный» поиск в Polars? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Каков самый быстрый способ выполнить «индексированный» поиск в Polars?

Цитата

Сообщение Anonymous » 08 мар 2026, 16:23

Я работаю с большими кадрами данных Polars, которые полностью загружены в память. Каждая строка уникально индексируется столбцами entityId (Int64) и enterDate (дата).
Я знаю, что в poalars нет индексов, но мне все равно нужно выполнять специальный поиск данных по этим таблицам, и это достаточно часто, что на это уходит нетривиальный % времени выполнения моего приложения.
В настоящее время я нахожу эти строки с помощью .filter

Код: Выделить всё

def locate(df, entityId, entryDate)->pl.DataFrame:
return df.filter(pl.col('entityId')==entityId).filter(pl.col('entryDate') == entryDate)

Это довольно быстро, но поиск строки по-прежнему занимает от 50 до 100 мс.
Есть ли какие-либо оптимизации, которые мне не хватает?
Некоторые вещи, которые я пробовал:

использование .lazy / .collect (без изменений)
сортировка по идентификатору объекта (нет меняй)

Я на полярах 0.17.12

Подробнее здесь: https://stackoverflow.com/questions/762 ... -in-polars

1772976222

Anonymous

Я работаю с большими кадрами данных Polars, которые полностью загружены в память. Каждая строка уникально индексируется столбцами entityId (Int64) и enterDate (дата).
Я знаю, что в poalars нет индексов, но мне все равно нужно выполнять специальный поиск данных по этим таблицам, и это достаточно часто, что на это уходит нетривиальный % времени выполнения моего приложения.
В настоящее время я нахожу эти строки с помощью .filter
[code]def locate(df, entityId, entryDate)->pl.DataFrame:
return df.filter(pl.col('entityId')==entityId).filter(pl.col('entryDate') == entryDate)
[/code]
Это довольно быстро, но поиск строки по-прежнему занимает от 50 до 100 мс.
Есть ли какие-либо оптимизации, которые мне не хватает?
Некоторые вещи, которые я пробовал:
[list]
[*]использование .lazy / .collect (без изменений)
[*]сортировка по идентификатору объекта (нет меняй)
[/list]
Я на полярах 0.17.12 

Подробнее здесь: [url]https://stackoverflow.com/questions/76217842/what-is-the-fastest-way-to-do-indexed-look-ups-in-polars[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»