Google «Режим AI» предполагает, что массив Python Numpy примерно в 4 раза более эффективен, чем список Python.
На вопрос «В чем разница в типичном использовании памяти между списком Python, содержащим 1000 чисел с плавающей запятой, и массивом numpy, содержащим 1000 чисел с плавающей точкой», он ответил, что типичное требование к памяти для Numpy Размер массива составляет около 8 КБ, а типичные требования к памяти для списка Python составляют около 32 КБ.
Как я могу проверить или проверить эту информацию?
Дополнительная информация
Проблема, которую я пытаюсь решить, заключается в следующем: у меня есть удаленный недорогой VPS, у которого мало оперативной памяти (4 ГБ). Мне нужно запускать задание по преобразованию данных один раз в день, чтобы преобразовать один файл jsonl в формат Apache Arrow. Для этого ему необходимо прочитать каждый объект JSON из файла jsonl, что можно сделать построчно, и добавить данные в некоторые контейнеры в памяти, чтобы можно было создать DataFrame и, наконец, преобразовать/записать на диск в формате Apache Arrow.Файл jsonl обычно может иметь размер 8–9 ГБ. Машина с 16 ГБ ОЗУ может без проблем обработать файл, машины меньшего размера начинают заменять файлы. Обычно это не является проблемой, но эти машины VPS должны иметь возможность запускать задание по сбору данных параллельно с заданием по преобразованию данных. Если использование ресурсов слишком велико, задание по сбору данных завершится сбоем и приведет к потере данных.
До сих пор я копировал эти большие файлы jsonl с сервера на локальный компьютер для преобразования данных. Это необходимо делать регулярно (каждые несколько дней), чтобы не допустить переполнения диска VPS. Если диск заполняется, это приводит к потере данных.
Я не могу оправдать дополнительную стоимость виртуальной машины объемом 16 ГБ. Это слишком дорого.
Подробнее здесь: https://stackoverflow.com/questions/799 ... nd-a-numpy
Мобильная версия