Правильный способ обработки наборов данных размером больше памяти в Polars

Правильный способ обработки наборов данных размером больше памяти в Polars ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Правильный способ обработки наборов данных размером больше памяти в Polars

Цитата

Сообщение Anonymous » 23 сен 2024, 15:41

Я начал изучать и внедрять Polars из-за (1) потенциального улучшения скорости и (2) из-за обещания иметь возможность обрабатывать наборы данных, превышающие объем памяти. Однако я изо всех сил пытаюсь понять, как на самом деле выполняется второе обещание в конкретных сценариях, которые требуются для моего варианта использования.
Один конкретный пример, с которым я борюсь, — это как читать мульти- GB JSONL из S3, примените несколько преобразований и отправьте измененные записи в STDOUT.
Пробелы в ленивых методах "приемника"...Как я только что рассказал на GitHub, методы мойки_*() не поддерживают запись в буфер или файловый режим — только по именованному пути к файлу. В противном случае кажется, что простым решением было бы что-то вроде мойки_ndjson(sys.stdout, ...)
Нет четкого способа «пакетной обработки» DataFrame или LazyFrame на меньшие фреймы данных.
Следующее, что я попробовал, — это получить меньшие пакеты или фреймы данных (например, по 100 тысяч строк за раз), которые я мог бы обрабатывать в памяти и записывать. с write_ndjson(sys.stdout, ...) по одному, пока не достигну конца потока.
Ближе всего я смог найти LazyFrame.slice(offset , Batch_size).collect() - за исключением того, что на практике это, похоже, зависает/падает при первом вызове, а не читает только первые n записей и затем продолжает работу. Даже когда я установил небольшое количество записей в пределе сканирования схемы LazyFrame. Возможно, это ошибка, но, тем не менее, метод среза(), похоже, не предназначен специально для получения дополнительных пакетов из ленивого кадра.
Любая помощь будет очень признательна!

Подробнее здесь: https://stackoverflow.com/questions/790 ... -in-polars

1727095266

Anonymous

Я начал изучать и внедрять Polars из-за (1) потенциального улучшения скорости и (2) из-за обещания иметь возможность обрабатывать наборы данных, превышающие объем памяти. Однако я изо всех сил пытаюсь понять, как на самом деле выполняется второе обещание в конкретных сценариях, которые требуются для моего варианта использования.
Один конкретный пример, с которым я борюсь, — это как читать мульти- GB JSONL из S3, примените несколько преобразований и отправьте измененные записи в STDOUT.
Пробелы в ленивых методах "приемника"...Как я только что рассказал на GitHub, методы мойки_*() не поддерживают запись в буфер или файловый режим — только по именованному пути к файлу. В противном случае кажется, что простым решением было бы что-то вроде мойки_ndjson(sys.stdout, ...)
Нет четкого способа «пакетной обработки» DataFrame или LazyFrame на меньшие фреймы данных.
Следующее, что я попробовал, — это получить меньшие пакеты или фреймы данных (например, по 100 тысяч строк за раз), которые я мог бы обрабатывать в памяти и записывать. с write_ndjson(sys.stdout, ...) по одному, пока не достигну конца потока.
Ближе всего я смог найти LazyFrame.slice(offset , Batch_size).collect() - за исключением того, что на практике это, похоже, зависает/падает при первом вызове, а не читает только первые n записей и затем продолжает работу. Даже когда я установил небольшое количество записей в пределе сканирования схемы LazyFrame. Возможно, это ошибка, но, тем не менее, метод среза(), похоже, не предназначен специально для получения дополнительных пакетов из ленивого кадра.
Любая помощь будет очень признательна!  

Подробнее здесь: [url]https://stackoverflow.com/questions/79008061/proper-way-to-process-larger-than-memory-datasets-in-polars[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Перечислите все доступные имена наборов данных, содержащиеся в наборе данных наборов данных Hugginface.

Последнее сообщение Anonymous « 11 окт 2024, 19:56
Добавлено в форуме Python

Anonymous » 11 окт 2024, 19:56 » в форуме Python

Я хочу знать, какие наборы данных включены, например. эта коллекция наборов данных Huggingface:

m4_daily и weatherbench_daily упоминаются явно, но их должно быть больше .
Меня не интересует список всех таких коллекций.
Я получаю список через...

0 Ответы

36 Просмотры

Последнее сообщение Anonymous
11 окт 2024, 19:56
Лучший способ обработки графика и отображения больших наборов данных

Последнее сообщение Anonymous « 12 июн 2025, 15:28
Добавлено в форуме Php

Anonymous » 12 июн 2025, 15:28 » в форуме Php

Наш веб -сайт предоставляет различные услуги данных для наших клиентов; Одним из которых является измерение данных. Некоторые датчики регистрируются каждые 15 минут, некоторые каждую минуту. Эти данные отправляются в нашу базу данных SQL.

Все эти...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
12 июн 2025, 15:28
Самый эффективный способ обработки крупномасштабной обработки массива в PHP 8.3 без истощения памяти? [закрыто]

Последнее сообщение Anonymous « 14 июн 2025, 13:45
Добавлено в форуме Php

Anonymous » 14 июн 2025, 13:45 » в форуме Php

С улучшением управления памятью PHP 8.3, каковы наиболее эффективные способы обработки больших наборов данных (например, 100K+ строк) без ограничений памяти? Я пробовал генераторы (урожай), SplfixEdarray и Chunking с Array_Chunk (), но мне...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
14 июн 2025, 13:45
Самый эффективный способ обработки крупномасштабной обработки массива в PHP 8.3 без истощения памяти? [закрыто]

Последнее сообщение Anonymous « 14 июн 2025, 13:45
Добавлено в форуме MySql

Anonymous » 14 июн 2025, 13:45 » в форуме MySql

С улучшением управления памятью PHP 8.3, каковы наиболее эффективные способы обработки больших наборов данных (например, 100K+ строк) без ограничений памяти? Я пробовал генераторы (урожай), SplfixEdarray и Chunking с Array_Chunk (), но мне...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
14 июн 2025, 13:45
Самый эффективный способ обработки крупномасштабной обработки массива в PHP 8.3 без истощения памяти? [закрыто]

Последнее сообщение Anonymous « 14 июн 2025, 22:08
Добавлено в форуме Php

Anonymous » 14 июн 2025, 22:08 » в форуме Php

Я работаю с большими наборами данных (100K+ строки из MySQL) в PHP 8.3 и должен оптимизировать использование памяти. Я экспериментировал с генераторами с использованием урожайности, SplfixedArray и обработки данных в кусках с Array_Chunk, но мне...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
14 июн 2025, 22:08

Вернуться в «Python»