Проблема с оперативной памятью при создании DataFrame с большим количеством столбцов из набора данных TensorFlow.

Проблема с оперативной памятью при создании DataFrame с большим количеством столбцов из набора данных TensorFlow. ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Проблема с оперативной памятью при создании DataFrame с большим количеством столбцов из набора данных TensorFlow.

Цитата

Сообщение Anonymous » 03 ноя 2024, 23:27

Я работаю с большими объемами данных, которые обрабатываю с помощью набора данных TensorFlow (TFDS) и сохраняю в pandas.DataFrame. Моя цель — преобразовать данные из одного формата в другой для дальнейшего анализа. Но когда я создаю DataFrame с большим количеством столбцов (~8500), моя оперативная память быстро заполняется, и процесс завершается с ошибкой нехватки памяти.
Текущий код:

Код: Выделить всё

import tensorflow as tf
import pandas as pd
from tqdm import tqdm

datapoint_indices = [x[0] for x in filtered_ranking_table]

# Empty DataFrame to store results
column_names = ["class"]
column_names += [f'datapoint_{i}' for i in datapoint_indices]
# df = pd.DataFrame(columns=column_names)
# max_rows = 114003  # or some other upper limit
# df = pd.DataFrame({name: [None] * 162078 for name in column_names})

# Trying to create a DataFrame with a fixed number of rows
# max_rows = 114003  # Row limit
# df = pd.DataFrame(index=range(max_rows), columns=column_names)

df = pd.DataFrame({name: [np.nan] * 162078 for name in column_names})

for datapoint_n, clusters in tqdm(dataset.take(114003), total=114003):
if datapoint_n.numpy() in datapoint_indices:
prev_index = len(df)  # Current length of df
for i, cluster in enumerate(clusters):
cluster = cluster.numpy()
cluster = [x for x in cluster if x != 0]
df.loc[prev_index:prev_index + len(cluster) - 1, 'class'] = i
df.loc[prev_index:prev_index + len(cluster) - 1, f'datapoint_{datapoint_n}'] = pd.Series(cluster, index=range(prev_index, prev_index + len(cluster)))
prev_index += len(cluster)

df = df.dropna(how='all')
df = df.astype({"class": int})

Что я пробовал до сих пор:

Создание пустого DataFrame с фиксированными строками (
Код: Выделить всё
```
max_rows
```
) и динамическое количество столбцов (
Код: Выделить всё
```
datapoint_indices
```
).
Использование цикла for для заполнения столбца данных блоками, как в приведенном выше коде, что помогает при небольшом количестве столбцов, но не работает для 8500. + столбцы из-за нехватки оперативной памяти.

Вопросы:

Как это может оптимизировать процесс для уменьшения потребления памяти?
Есть ли способ записать данные непосредственно в файл (например, Parquet, CSV или HDF5) ) вместо загрузки в оперативную память?
Какие подходы могут помочь с таким объемом данных и количеством столбцов?

Будем признательны за любые советы по оптимизации или способам сохранения данных непосредственно в файл.

Подробнее здесь: https://stackoverflow.com/questions/791 ... mns-from-a

1730665630

Anonymous

Я работаю с большими объемами данных, которые обрабатываю с помощью набора данных TensorFlow (TFDS) и сохраняю в pandas.DataFrame. Моя цель — преобразовать данные из одного формата в другой для дальнейшего анализа. Но когда я создаю DataFrame с большим количеством столбцов (~8500), моя оперативная память быстро заполняется, и процесс завершается с ошибкой нехватки памяти.
Текущий код:
[code]import tensorflow as tf
import pandas as pd
from tqdm import tqdm

datapoint_indices = [x[0] for x in filtered_ranking_table]

# Empty DataFrame to store results
column_names = ["class"]
column_names += [f'datapoint_{i}' for i in datapoint_indices]
# df = pd.DataFrame(columns=column_names)
# max_rows = 114003  # or some other upper limit
# df = pd.DataFrame({name: [None] * 162078 for name in column_names})

# Trying to create a DataFrame with a fixed number of rows
# max_rows = 114003  # Row limit
# df = pd.DataFrame(index=range(max_rows), columns=column_names)

df = pd.DataFrame({name: [np.nan] * 162078 for name in column_names})

for datapoint_n, clusters in tqdm(dataset.take(114003), total=114003):
if datapoint_n.numpy() in datapoint_indices:
prev_index = len(df)  # Current length of df
for i, cluster in enumerate(clusters):
cluster = cluster.numpy()
cluster = [x for x in cluster if x != 0]
df.loc[prev_index:prev_index + len(cluster) - 1, 'class'] = i
df.loc[prev_index:prev_index + len(cluster) - 1, f'datapoint_{datapoint_n}'] = pd.Series(cluster, index=range(prev_index, prev_index + len(cluster)))
prev_index += len(cluster)

df = df.dropna(how='all')
df = df.astype({"class": int})

[/code]
Что я пробовал до сих пор:
[list]
[*]Создание пустого DataFrame с фиксированными строками ([code]max_rows[/code]) и динамическое количество столбцов ([code]datapoint_indices[/code]).
[*]Использование цикла for для заполнения столбца данных блоками, как в приведенном выше коде, что помогает при небольшом количестве столбцов, но не работает для 8500. + столбцы из-за нехватки оперативной памяти.
[/list]
Вопросы:
[list]
[*]Как это может оптимизировать процесс для уменьшения потребления памяти?
[*]Есть ли способ записать данные непосредственно в файл (например, Parquet, CSV или HDF5) ) вместо загрузки в оперативную память?
[*]Какие подходы могут помочь с таким объемом данных и количеством столбцов?
[/list]
Будем признательны за любые советы по оптимизации или способам сохранения данных непосредственно в файл. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79153593/problem-with-ram-when-creating-a-dataframe-with-a-large-number-of-columns-from-a[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Android — в чем разница между оперативной памятью Android и оперативной памятью ПК

Последнее сообщение Anonymous « 05 мар 2024, 08:04
Добавлено в форуме Android

Anonymous » 05 мар 2024, 08:04 » в форуме Android

Yesterday I tried to open a *.txt file larger than 3 MB with android. Why can't android open it? Previously I had tried to open that file with Windows with the same RAM capacity and Processor speed.

What exactly is the difference between android...

0 Ответы

88 Просмотры

Последнее сообщение Anonymous
05 мар 2024, 08:04
Почему итерты Pandas работают медленнее, чем итерации в кадрах данных с большим количеством (> 100) столбцов?

Последнее сообщение Anonymous « 29 окт 2024, 01:51
Добавлено в форуме Python

Anonymous » 29 окт 2024, 01:51 » в форуме Python

В неудачной ситуации, когда цикл по строкам фрейма данных Pandas является единственным способом продолжить, обычно упоминается, что itertuples() предпочтительнее iterrows() с точки зрения скорости вычислений. Это утверждение справедливо для фреймов...

0 Ответы

24 Просмотры

Последнее сообщение Anonymous
29 окт 2024, 01:51
Почему итерты Pandas работают медленнее, чем итерации в кадрах данных с большим количеством (> 100) столбцов?

Последнее сообщение Anonymous « 29 окт 2024, 02:27
Добавлено в форуме Python

Anonymous » 29 окт 2024, 02:27 » в форуме Python

В неудачной ситуации, когда цикл по строкам фрейма данных Pandas является единственным способом продолжить, обычно упоминается, что itertuples() предпочтительнее iterrows() с точки зрения скорости вычислений. Это утверждение справедливо для фреймов...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
29 окт 2024, 02:27
Почему итерты Pandas работают медленнее, чем итерации в кадрах данных с большим количеством (> 100) столбцов?

Последнее сообщение Anonymous « 29 окт 2024, 15:02
Добавлено в форуме Python

Anonymous » 29 окт 2024, 15:02 » в форуме Python

В неудачной ситуации, когда цикл по строкам фрейма данных Pandas является единственным способом продолжить, обычно упоминается, что itertuples() предпочтительнее iterrows() с точки зрения скорости вычислений. Это утверждение справедливо для фреймов...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
29 окт 2024, 15:02
Важность функции без метки для данных временных рядов с большим количеством столбцов/функций

Последнее сообщение Anonymous « 12 янв 2025, 15:38
Добавлено в форуме Python

Anonymous » 12 янв 2025, 15:38 » в форуме Python

У меня есть образец набора данных временных рядов (23, 14291), который для некоторых пользователей представляет собой сводную таблицу для подсчета за 24 часа; Я пытаюсь отфильтровать некоторые столбцы/функции, которые не имеют характера, основанного...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
12 янв 2025, 15:38

Вернуться в «Python»