В рамках нашей работы мы создаем довольно большие файлы xlsx.
Около 1000 столбцов и 200 тысяч строк.
Мы заметили, что старые версии pandas/openpyxl справляются со своей задачей гораздо лучше. при создании этих файлов эффективно использовать память и время.
Использование:
openpyxl = 3.0.7 и 3.1.2
pandas = 1.2.4
Время выполнения составляет примерно полчаса, размер выходного файла около 100 МБ и использование оперативной памяти около 4 ГБ.
Использование
openpyxl = 3.1.4 и 3.1.2
pandas = 2.1.4
это занимает 2 часа, выходной файл имеет размер 400 МБ и занимает всю доступную оперативную память в почти 16 ГБ.
Я проведу еще несколько экспериментов, независимо от того, связано ли это с пандами или openpyxl, но мне было интересно, знает ли кто-нибудь, что здесь происходит.
edit:
Я обновил openpyxl до 3.1.2, и он по-прежнему быстро печатает файлы небольшого размера.
Я также понизил версию до 3.1.2 с помощью pandas 2.1.4 и это все еще занимает много времени, так что проблема, похоже, связана с пандами.
Подробнее здесь: https://stackoverflow.com/questions/786 ... s-openpyxl
Скорость записи и размер экспорта Excel pandas openpyxl ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Скорость записи падает через некоторое время при записи в массив, отображенный в памяти.
Anonymous » » в форуме Python - 0 Ответы
- 13 Просмотры
-
Последнее сообщение Anonymous
-