Как написать большие паркетные файлы (20 ГБ+) в SQLite на партиях, используя поляры? - Цифровое Кемерово

Как написать большие паркетные файлы (20 ГБ+) в SQLite на партиях, используя поляры? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как написать большие паркетные файлы (20 ГБ+) в SQLite на партиях, используя поляры?

Цитата

Сообщение Anonymous » 02 апр 2025, 12:49

У меня есть следующий код Polars, который считывает паркетный файл и записывает его в базу данных SQLite: < /p>
data = pl.scan_parquet(get_dataset_path()).collect()
_ = data.write_database(
table_name="my_table",
connection="sqlite:///my_data.db",
if_table_exists="replace",
)
< /code>
Это прекрасно работает для более мелких наборов данных, но при работе с действительно большими паркетными файлами (20 ГБ+), он запускается из памяти. < /p>
Я не хочу переходить на Postgresql Обработка их партиями или использованием потоковой передачи?
Заранее!

Подробнее здесь: https://stackoverflow.com/questions/795 ... ing-polars

Реклама

1743587395

Anonymous

 У меня есть следующий код Polars, который считывает паркетный файл и записывает его в базу данных SQLite: < /p>
data = pl.scan_parquet(get_dataset_path()).collect()
_ = data.write_database(
table_name="my_table",
connection="sqlite:///my_data.db",
if_table_exists="replace",
)
< /code>
Это прекрасно работает для более мелких наборов данных, но при работе с действительно большими паркетными файлами (20 ГБ+), он запускается из памяти. < /p>
Я не хочу переходить на Postgresql Обработка их партиями или использованием потоковой передачи? 
Заранее!  

Подробнее здесь: [url]https://stackoverflow.com/questions/79550295/how-to-write-large-parquet-files-20gb-to-sqlite-in-batches-using-polars[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Поляры для Python, могу ли я прочитать паркетные файлы с помощью hive_partitioning, когда структура и файлы каталогов бы

Последнее сообщение Anonymous « 08 май 2025, 10:27
Добавлено в форуме Python

Anonymous » 08 май 2025, 10:27 » в форуме Python

I вручную создал структуры каталогов и писал паркетные файлы, а не использовал параметр phyn_by в библиотеке python polars, потому что

Я хочу полный контроль над файлом parquet naming
Я хочу обрабатывать файл в приплекте. Подзадачи (в моем...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
08 май 2025, 10:27
Поляры для Python, могу ли я прочитать паркетные файлы с помощью hive_partitioning, когда структура и файлы каталогов бы

Последнее сообщение Anonymous « 08 май 2025, 13:12
Добавлено в форуме Python

Anonymous » 08 май 2025, 13:12 » в форуме Python

Я вручную создал структуры каталогов и писал паркетные файлы, а не использовал параметр phyn_by в функции write_parquet () библиотеки Python Polars, потому что

Я хочу полный контроль над файлом паркета. Подзадачи (в моем случае я объединяю данные...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
08 май 2025, 13:12
Как обрабатывать рамки данных Python Pandas в партиях?

Последнее сообщение Anonymous « 25 апр 2025, 01:00
Добавлено в форуме Python

Anonymous » 25 апр 2025, 01:00 » в форуме Python

У меня есть три очень длинных списка рамков пандас. Например:
list_a =

list_b =

list_c =

Я хочу сделать что -то вроде этого:
tablea1 = pd.concat( , axis=1)

Так наивно, я написал такие коды:
for i in range(len(list_a)):

list_a =...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
25 апр 2025, 01:00
Как получить гистограмму тензоров Pytorch в партиях?

Последнее сообщение Anonymous « 28 июн 2025, 15:53
Добавлено в форуме Python

Anonymous » 28 июн 2025, 15:53 » в форуме Python

Есть ли способ получить гистограммы тензоров горелки в партиях?# x will have shape of (64, 256)
x = batch_histogram(x, bins=256, min=0, max=255)

Подробнее здесь:

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
28 июн 2025, 15:53
Поляры: как узнать количество столбцов в выражении поляры?

Последнее сообщение Anonymous « 16 сен 2024, 21:43
Добавлено в форуме Python

Anonymous » 16 сен 2024, 21:43 » в форуме Python

Я создаю пакет поверх Polars, и одна из функций выглядит так
def func(x: IntoExpr, y: IntoExpr):
...

Бизнес-логика требует, чтобы x мог включать в себя несколько столбцов, но y должен быть одним столбцом.
Что мне следует сделать, чтобы проверить...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
16 сен 2024, 21:43

Вернуться в «Python»

Programmiererforum