Python: периодическая запись при чтении большого объема данных

Python: периодическая запись при чтении большого объема данных ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Python: периодическая запись при чтении большого объема данных

Цитата

Сообщение Anonymous » 05 авг 2024, 22:35

У меня большое количество файлов изображений (около 220 000), хранящихся на быстром локальном SSD. Используя Python и библиотеку tifffile, я считываю изображения в виде массивов numpy, которые затем объединяются в один массив и сохраняются на диск. Чтение этого объединенного массива происходит намного быстрее, чем чтение файлов по отдельности.
Я пытаюсь понять, почему во время чтения данных происходят записи (более 30 МБ/с) ( Ожидается: происходят все чтения, затем создается объединенный массив, затем происходит одна запись). Очевидно, что при этом доступной оперативной памяти более чем достаточно (весь набор данных умещается в оперативной памяти):
[img]https://i.sstatic. net/ZLR47OHm.png[/img]

Я предполагаю, что в памяти все еще есть данные (но не помечены как использующие память), чтобы объяснить, почему первые ~ 15 ГБ загружаются без какого-либо чтения с диска. (чтение начинается с левой стороны графика).
Простой пример кода выглядит примерно так:
import os
import numpy as np
from tifffile import imread
from functools import partial
from tqdm.contrib.concurrent import process_map

def get_image(dir, ID):
# Load as a numpy array
return imread(os.path.join(dir, ID + ".tif"))

def generate_numpy_file(IDs, folder, fname="train"):
_read = partial(get_image, folder)

print("Reading Data")
images = process_map(_read, IDs, max_workers=20, chunksize=1024)
images = np.array(images)

print("Writing Data")
np.save(os.path.join(SCRIPT_DIR, "Datasets", fname), images)

Подробнее здесь: https://stackoverflow.com/questions/788 ... nt-of-data

1722886546

Anonymous

У меня большое количество файлов изображений (около 220 000), хранящихся на быстром локальном SSD. Используя Python и библиотеку tifffile, я считываю изображения в виде массивов numpy, которые затем объединяются в один массив и сохраняются на диск. Чтение этого объединенного массива происходит намного быстрее, чем чтение файлов по отдельности.
Я пытаюсь понять, почему во время чтения данных происходят записи (более 30 МБ/с) ( Ожидается: происходят все чтения, затем создается объединенный массив, затем происходит одна запись). Очевидно, что при этом доступной оперативной памяти более чем достаточно (весь набор данных умещается в оперативной памяти):
[img]https://i.sstatic. net/ZLR47OHm.png[/img]

Я предполагаю, что в памяти все еще есть данные (но не помечены как использующие память), чтобы объяснить, почему первые ~ 15 ГБ загружаются без какого-либо чтения с диска. (чтение начинается с левой стороны графика).
Простой пример кода выглядит примерно так:
import os
import numpy as np
from tifffile import imread
from functools import partial
from tqdm.contrib.concurrent import process_map

def get_image(dir, ID):
# Load as a numpy array
return imread(os.path.join(dir, ID + ".tif"))

def generate_numpy_file(IDs, folder, fname="train"):
_read = partial(get_image, folder)

print("Reading Data")
images = process_map(_read, IDs, max_workers=20, chunksize=1024)
images = np.array(images)

print("Writing Data")
np.save(os.path.join(SCRIPT_DIR, "Datasets", fname), images)
 

Подробнее здесь: [url]https://stackoverflow.com/questions/78836171/python-periodic-writes-while-reading-large-amount-of-data[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Проблемы с загрузкой большого объема данных из базы данных SQL Server.

Последнее сообщение Anonymous « 22 янв 2025, 00:03
Добавлено в форуме Python

Anonymous » 22 янв 2025, 00:03 » в форуме Python

Моя текущая проблема заключается в загрузке большого объема данных из таблицы, содержащей около 5 000 000 строк, из базы данных SQL Server.
Настройка (на которую я не могу повлиять) такая: :

0 графических процессоров
4000 процессоров
15,0...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
22 янв 2025, 00:03
Как оптимизировать память при запросе и сохранении большого объема данных в S3

Последнее сообщение Anonymous « 20 ноя 2024, 07:54
Добавлено в форуме Python

Anonymous » 20 ноя 2024, 07:54 » в форуме Python

Я пытаюсь отправить запрос Athena с помощью boto3, получить значение из фрейма данных, а затем сохранить фрейм данных в S3.
from io import StringIO
import boto3
import awswrangler as wr

region =
access_key =
secret_key =
database =

s3 =...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
20 ноя 2024, 07:54
Python и Pandas для записи большого объема данных

Последнее сообщение Anonymous « 27 ноя 2024, 08:54
Добавлено в форуме Python

Anonymous » 27 ноя 2024, 08:54 » в форуме Python

Сценарий генерирует 50 000 кадров данных приведенной ниже структуры и сохраняет их один на один на локальном диске. Чтобы повысить эффективность, я изменил формат записи с Excel на Parquet. Однако, похоже, он не работает быстрее.
Затем необходимо...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
27 ноя 2024, 08:54
Python и Pandas для записи большого объема данных

Последнее сообщение Anonymous « 27 ноя 2024, 21:09
Добавлено в форуме Python

Anonymous » 27 ноя 2024, 21:09 » в форуме Python

Сценарий генерирует 50 000 кадров данных приведенной ниже структуры и сохраняет их один на один на локальном диске. Чтобы повысить эффективность, я изменил формат записи с Excel на Parquet. Однако, похоже, он не работает быстрее.
Затем необходимо...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
27 ноя 2024, 21:09
Python и Pandas для записи большого объема данных

Последнее сообщение Anonymous « 27 ноя 2024, 23:03
Добавлено в форуме Python

Anonymous » 27 ноя 2024, 23:03 » в форуме Python

Сценарий генерирует 50 000 кадров данных приведенной ниже структуры и сохраняет их один на один на локальном диске. Чтобы повысить эффективность, я изменил формат записи с Excel на Parquet. Однако, похоже, он не работает быстрее.
Затем необходимо...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
27 ноя 2024, 23:03

Вернуться в «Python»