Набор данных с большим, чем памятью с полярами

Набор данных с большим, чем памятью с полярами ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Набор данных с большим, чем памятью с полярами

Цитата

Сообщение Anonymous » 01 апр 2025, 22:16

У меня есть паркетный файл с набором данных, который выглядит так: < /p>

Код: Выделить всё

df = pl.LazyFrame(
{
"target": [
[1.0, 2.0],
[3.0, 4.0],
],
"point_cloud": [
[
[7.0, 8.0],
[9.0, 10.0],
],
[
[9.0, 10.0],
],
],
},
schema={
"target": pl.Array(pl.Float32, 2),
"point_cloud": pl.List(pl.Array(pl.Float32, 2)),
},
)
< /code>
Файл имеет 4 миллиона строк и составляет 20 ГБ (не подходит в ОЗУ). < /p>
Я пытаюсь получить размер точечных облаков, таких как: < /p>
df = (
pl.scan_parquet(dataset).select(size=pl.col("point_cloud").list.len()).collect()
)
< /code>
Но моя программа заканчивает память и умирает. Я пытался изменить Collect (Engine = "Streaming")

, но результат одинаково.
Я озадачен, потому что, когда я пытаюсь получить, например, x координата всех целей, она работает нормально (и очень быстро):
df = pl.scan_parquet(dataset).select(x=pl.col("target").arr.get(0)).collect()
< /code>
Могу ли я получить помощь с этим? src = "https://i.sstatic.net/fyygm4rv.jpg"/>

Подробнее здесь: https://stackoverflow.com/questions/795 ... ith-polars

1743535019

Anonymous

 У меня есть паркетный файл с набором данных, который выглядит так: < /p>
[code]df = pl.LazyFrame(
{
"target": [
[1.0, 2.0],
[3.0, 4.0],
],
"point_cloud": [
[
[7.0, 8.0],
[9.0, 10.0],
],
[
[9.0, 10.0],
],
],
},
schema={
"target": pl.Array(pl.Float32, 2),
"point_cloud": pl.List(pl.Array(pl.Float32, 2)),
},
)
< /code>
Файл имеет 4 миллиона строк и составляет 20 ГБ (не подходит в ОЗУ). < /p>
Я пытаюсь получить размер точечных облаков, таких как: < /p>
df = (
pl.scan_parquet(dataset).select(size=pl.col("point_cloud").list.len()).collect()
)
< /code>
Но моя программа заканчивает память и умирает. Я пытался изменить Collect (Engine = "Streaming") [/code], но результат одинаково.
Я озадачен, потому что, когда я пытаюсь получить, например, x  координата всех целей, она работает нормально (и очень быстро): 
df = pl.scan_parquet(dataset).select(x=pl.col("target").arr.get(0)).collect()
< /code>
Могу ли я получить помощь с этим? src = "https://i.sstatic.net/fyygm4rv.jpg"/> 
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79547639/larger-than-memory-dataset-with-polars[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Набор данных с большим, чем памятью с полярами

Последнее сообщение Anonymous « 01 апр 2025, 09:53
Добавлено в форуме Python

Anonymous » 01 апр 2025, 09:53 » в форуме Python

У меня есть паркетный файл с набором данных, который выглядит так:
df = pl.LazyFrame(
{
target : [
,
,
],
point_cloud : [
[
,
,
],
[
,
],
],
},
schema={
target : pl.Array(pl.Float32, 2),
point_cloud : pl.List(pl.Array(pl.Float32, 2)),
},...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
01 апр 2025, 09:53
Проблемы с памятью при сортировке большего размера, чем файл памяти с полярами

Последнее сообщение Anonymous « 04 окт 2024, 17:27
Добавлено в форуме Python

Anonymous » 04 окт 2024, 17:27 » в форуме Python

Все.
Я борюсь с проблемами с памятью при сортировке LazyFrame, превышающего объем памяти, с помощью поляров с помощью команды Skin_csv.
Я Я разрабатываю механизм, который сможет объединять и сортировать несколько больших наборов данных в виде...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
04 окт 2024, 17:27
Проблема с оперативной памятью при создании DataFrame с большим количеством столбцов из набора данных TensorFlow.

Последнее сообщение Anonymous « 03 ноя 2024, 23:27
Добавлено в форуме Python

Anonymous » 03 ноя 2024, 23:27 » в форуме Python

Я работаю с большими объемами данных, которые обрабатываю с помощью набора данных TensorFlow (TFDS) и сохраняю в pandas.DataFrame. Моя цель — преобразовать данные из одного формата в другой для дальнейшего анализа. Но когда я создаю DataFrame с...

0 Ответы

30 Просмотры

Последнее сообщение Anonymous
03 ноя 2024, 23:27
Android — в чем разница между оперативной памятью Android и оперативной памятью ПК

Последнее сообщение Anonymous « 05 мар 2024, 08:04
Добавлено в форуме Android

Anonymous » 05 мар 2024, 08:04 » в форуме Android

Yesterday I tried to open a *.txt file larger than 3 MB with android. Why can't android open it? Previously I had tried to open that file with Windows with the same RAM capacity and Processor speed.

What exactly is the difference between android...

0 Ответы

89 Просмотры

Последнее сообщение Anonymous
05 мар 2024, 08:04
Квантили ряда с полярами в качестве кадра данных

Последнее сообщение Anonymous « 10 окт 2024, 16:00
Добавлено в форуме Python

Anonymous » 10 окт 2024, 16:00 » в форуме Python

Предположим, у меня есть фрейм данных в полярах с результатом столбца, который представляет собой некоторое число с плавающей запятой.
df = pl.from_repr(
┌─────┬──────────┐
│ a ┆ outcome │
│ --- ┆ --- │
│ i64 ┆ f64 │
╞═════╪══════════╡
│ 2 ┆...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
10 окт 2024, 16:00

Вернуться в «Python»