У меня есть большое количество CSV-файлов (~100 000), некоторые из которых сами по себе являются большими CSV-файлами (т. е. >128 ГБ), и я пытаюсь преобразовать их в файлы Parquet. Файлы содержат смесь символьных, числовых данных и данных даты,...
Мне нужно разделить большой набор данных CSV на более мелкие разделы по годам и месяцам. Что я делаю:
for year in range(2016, 2019):
year_df = (pl
.scan_csv('some.csv', infer_schema_length=100000, null_values= , cache=True)
.with_columns(...
Использование прокси-сервера
Использование поддомена и явная настройка домена для файлов cookie, например: .app.localhost
Полное исключение поля домена в файле cookie
Установка кода состояния на 303, 302 (по...
Опять же, я новичок в Supabase, поэтому заранее извиняюсь, если не предоставлю четкую информацию в этом посте или напутаю с некоторыми терминами или чем-то еще.
По сути, я выполняю аутентификацию с помощью Supabase, и у меня есть таблица под...
Использование поляров повсюду
Я хочу использовать replace, чтобы что-то вроде кодирования меток моих категориальных столбцов. Проблема в том, что мой фрейм данных создан путем объединения других фреймов данных.
Я могу сделать следующее:
df1 =...
У меня есть папка, содержащая тысячи файлов CSV, которые я хотел бы отсканировать с помощью ленивого кадра PL.
Сканирование на самом деле работает нормально, но когда я пытаюсь получить или собрать df, я получаю сообщение «ShapeError: невозможно...
Я пробовал использовать Prefect с проектом FastAPI. Затем, когда я обновил журналы и повторно развернул репозиторий, а также развертывания и потоки Prefect. Он запускается и отображает журналы (по сути, Prefect по-прежнему указывает на более старый...
Использование прокси-сервера
Использование поддомена и явная настройка домена для файлов cookie, например: .app.localhost
Полное исключение поля домена в файле cookie
Установка кода состояния на 303, 302 (по...
У меня есть пример CSV с 1 столбцом в первой строке и двумя столбцами в остальных строках. Парсер в Polars read_csv распознает только 1 столбец. Как заставить его читать больше столбцов? Я не могу просто использовать пропуск строк, потому что иногда...
При записи DataFrame в файл csv я хотел бы добавить его к файлу, а не перезаписывать его.
Хотя pandas DataFrame имеет метод .to_csv() с доступным параметром mode, что позволяет добавлять DataFrame в файл,
Ни один из методов записи Polars DataFrame,...
Я создаю веб-сайт с помощью flask, на котором пользователи имеют учетные записи и могут входить в систему.
Я использую flask-principal для частичного входа в систему и управления ролями.
Есть ли способ завершить сеанс пользователя, скажем, через 5...
Я хочу объединить три столбца списка в pl.LazyFrame. Однако списки часто содержат значения NULL. Результат NULL для pl.concat_list
MRE
import polars as pl
# Create the data with some NULLs
data = {
a : [ , None, ],
b : [None, , ],
c : [ , ,...
Я хочу прочитать в кадре данных Polars строку json, содержащую даты в стандартном iso-формате гггг-мм-дд .
Когда я пытаюсь прочитать строку и установить dtype столбца даты с помощью схемы или Schema_override, это приводит только к значениям NULL....
Я хочу применить лямбда-функцию ко всем столбцам pl.Date, которая заменяет дату '0001-01-01' на нулевую.
replace_func = lambda date: None if date == datetime.date(1,1,1) else date
df.select(pl.col(pl.Date).map_elements(replace_func))
Я пытаюсь прочитать большой CSV-файл (приблизительно 6,4 ГБ) на небольшом компьютере (небольшой ноутбук с ОС Windows и 8 ГБ ОЗУ) перед сохранением его в базе данных SQLite (я знаю, что есть альтернативы, но дело здесь не в этом).
В случае...
Я читаю несколько файлов с помощью Polars, но хочу добавить имя файла в качестве идентификатора в новый столбец.
#how to add filenames to polars
lazy_dfs = (pl.scan_csv( data/file_*.tsv , separator= \t , has_header=False).fetch(n_rows= 500))...
Я читаю несколько файлов с помощью Polars, но хочу добавить имя файла в качестве идентификатора в новый столбец.
#how to add filenames to polars
lazy_dfs = (pl.scan_csv( data/file_*.tsv , separator= \t , has_header=False).fetch(n_rows= 500))...
Как я могу перебирать большой список кадров данных Polars/Pandas в Python с очень быстрым временем вычислений, одновременно выполняя очистку/преобразование данных для каждого кадра данных?
Моя проблема: у меня есть огромный список файлов CSV...
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете добавлять вложения