Поляры против панды: разница в размерах и скорости

Поляры против панды: разница в размерах и скорости ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Поляры против панды: разница в размерах и скорости

Сообщение Anonymous » 30 янв 2025, 21:07

У меня есть файл Parquet (~ 1,5 ГБ), который я хочу обработать с Polars . Полученный DataFrame имеет 250K строк и 10 столбцов. В одной колонке есть большие куски текстов. Одним из которых является то, что он значительно быстрее, чем панда. Поэтому я начал сравнивать с Pandas . Я делаю что -то не так или поляры для этого конкретного варианта использования просто медленнее? Если так: есть ли способ ускорить это?

Код: Выделить всё

import polars as pl

df = (pl.scan_parquet("folder/myfile.parquet")
.filter((pl.col("type")=="Urteil") | (pl.col("type")=="Beschluss"))
.collect()
)
df.head()

Весь код занимает примерно 1 минуту , тогда как только фильтрационная часть занимает 13 секунд .
Мой код в Pandas :

Код: Выделить всё

import pandas as pd

df = (pd.read_parquet("folder/myfile.parquet")
.query("type == 'Urteil' | type == 'Beschluss'") )
df.head()

Весь код также занимает примерно 1 минуту , тогда как только часть запроса занимает

i64 < /li>
str < /li>
struct [7] < /li>
str (для всех оставшихся) < /li>
< /ul>
Как уже упоминалось: колонка "content< /code> «хранят большие тексты (от 1 до 20 страниц текста), которые мне нужно для предварительной просчета и хранилище по -разному, я думаю. : удалили размер части исходного поста, так как сравнение не было похоже на подобное и, по -видимому, не связано с моим вопросом.

Подробнее здесь: https://stackoverflow.com/questions/755 ... difference

Anonymous

1 сообщение • Страница 1 из 1

Вернуться в «Python»