У меня есть файл .parquet, и я хотел бы использовать Python для быстрого и эффективного запроса этого файла по столбцу.
Например, у меня может быть имя столбца в этом файле .parquet, и я хочу получить первые (или все) строки с выбранным именем.
Как...
Я выполняю рекурсивный доступ к каталогам, структура папок которых выглядит примерно так:
-- папка1
-- папка1.1
-- папка 1.1.1
-- папка 1.1.1.1 (здесь находятся документы, и я хочу получить даты их изменения)
-- папка2
-- папка2.1
-- папка2.1.1
--...
Я использую набор данных из нескольких фреймов данных в качестве временного хранилища данных, доступного для сценариев использования Power BI и Python. Как я могу перегруппировать данные, используя поляры, во фреймы данных определенного размера?...
Я хотел бы прочитать файл паркета с полярами (0.19.19), сохраненный с помощью pandas (2.1.3).
test_df = pd.DataFrame({ a : })
test_df = test_df.a.astype( category )
test_df.to_parquet( test_df.parquet )
У меня есть потоковые данные в формате JSON, которые я преобразую в кадр данных Polars, а затем записываю данные в виде паркета, разделенного на два столбца. Я заметил, что если новая запись имеет тот же раздел, то вместо записи дополнительного...
У меня на s3 многосекционный паркет. Каждый раздел содержит несколько файлов паркета. Приведенный ниже код ограничивается одним разделом, который может содержать около 30 файлов паркета. Когда я использую scan_parquet по адресу s3, который включает...
Мне интересно, почему я наблюдаю такую низкую производительность при написании LazyFrame с использованием PartitionByKey для S3 по сравнению с другими методами. Вот простой тестовый скрипт, который записывает случайные данные на диск и в S3:...
Следуя документации по чтению из облачного хранилища, я создал приведенный ниже скрипт, который не работает.
import boto3
import polars as pl
import os
Коротко говоря, мне нужно обработать 100 гигабайт журналов в странном формате, а затем провести некоторый анализ результатов.
Выбрал CL в качестве своего инструмента, потому что я уже «комфортно» с ним работаю, несмотря на то, что раньше не...
У меня есть кадр (события), который я хочу объединить с другим кадром (fr), присоединившись по дате и символу. Даты не обязательно совпадают. Дата в событиях будет совпадать с первым появлением только в ту же или более позднюю дату во fr, поэтому,...
У меня есть фрагмент панды ниже, который я хочу преобразовать в полярные, чтобы попробовать. Ожидаемый результат для полярных полей такой же, как и для панд, но не получается, так как совокупная сумма отсутствует. Как добиться аналогичного...
Я выполнил следующее в блокноте Jupyter и был разочарован тем, что аналогичный код Pandas работает быстрее. Надеюсь, кто-нибудь сможет продемонстрировать более разумный подход в Polars.
ВЕРСИЯ POLARS
def cleanse_text(sentence):
RIGHT_QUOTE = r...
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете добавлять вложения