Какова типичная разница в использовании памяти между списком Python и массивом Numpy? [дубликат]Python

Программы на Python
Ответить
Anonymous
 Какова типичная разница в использовании памяти между списком Python и массивом Numpy? [дубликат]

Сообщение Anonymous »

Я пытаюсь найти информацию о типичном использовании памяти списками Python и массивами Numpy. Обе структуры данных будут содержать однородные данные. (Например, каждый контейнер всегда будет содержать 64-битные значения с плавающей запятой или «целые числа».)
Google «Режим AI» предполагает, что массив Python Numpy примерно в 4 раза более эффективен, чем список Python.
На вопрос «В чем разница в типичном использовании памяти между списком Python, содержащим 1000 чисел с плавающей запятой, и массивом numpy, содержащим 1000 чисел с плавающей точкой», он ответил, что типичное требование к памяти для Numpy Размер массива составляет около 8 КБ, а типичные требования к памяти для списка Python составляют около 32 КБ.
Как я могу проверить или проверить эту информацию?

Дополнительная информация

Проблема, которую я пытаюсь решить, заключается в следующем: у меня есть удаленный недорогой VPS, у которого мало оперативной памяти (4 ГБ). Мне нужно запускать задание по преобразованию данных один раз в день, чтобы преобразовать один файл jsonl в формат Apache Arrow. Для этого ему необходимо прочитать каждый объект JSON из файла jsonl, что можно сделать построчно, и добавить данные в некоторые контейнеры в памяти, чтобы можно было создать DataFrame и, наконец, преобразовать/записать на диск в формате Apache Arrow.
Файл jsonl обычно может иметь размер 8–9 ГБ. Машина с 16 ГБ ОЗУ может без проблем обработать файл, машины меньшего размера начинают заменять файлы. Обычно это не является проблемой, но эти машины VPS должны иметь возможность запускать задание по сбору данных параллельно с заданием по преобразованию данных. Если использование ресурсов слишком велико, задание по сбору данных завершится сбоем и приведет к потере данных.
До сих пор я копировал эти большие файлы jsonl с сервера на локальный компьютер для преобразования данных. Это необходимо делать регулярно (каждые несколько дней), чтобы не допустить переполнения диска VPS. Если диск заполняется, это приводит к потере данных.
Я не могу оправдать дополнительную стоимость виртуальной машины объемом 16 ГБ. Это слишком дорого.

Подробнее здесь: https://stackoverflow.com/questions/799 ... nd-a-numpy
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»