Я работаю в Colab с набором данных HAM10000, который содержит 10015 изображений. При импорте изображений в фрейм данных процесс зависает на ~103 элементах. В конечном итоге процесс возобновится с нормальной скоростью, но количество времени, которое это займет, полностью варьируется. Иногда весь процесс импорта завершается за 2,5 минуты, иногда за 1 час из-за зависания. В приведенном ниже фрагменте кода это последняя строка, на которую влияет зависание.
# Specify the base directory for images
base_skin_dir = '/content/drive/My Drive/Colab_Files/data/images/'
# Create a dictionary where the key is the image ID without the file extension,
# and the value is the path to the image file
imageid_path_dict = {os.path.splitext(os.path.basename(x))[0]: x
for x in glob(os.path.join(base_skin_dir, '*.jpg'))}
# read in metadata
skin_df = pd.read_csv('/content/drive/My Drive/Colab_Files/data/HAM10000_metadata.csv')
skin_df['path'] = skin_df['image_id'].map(imageid_path_dict.get)
tqdm.pandas()
skin_df['image'] = skin_df['path'].progress_map(lambda x: np.asarray(Image.open(x).resize((48, 64))))
Я понимаю, что это, скорее всего, связано с проблемой пропускной способности сети или регулированием. Я ищу оптимизированный подход, чтобы импорт занимал более стабильное время.
Когда я впервые столкнулся с замедлением, я добавил tqdm.pandas() в код, чтобы процесс можно было визуализировать с помощью полосы загрузки. Так я узнал о зависании после ~103 элементов.
Я также тестировал код с CV2 вместо библиотеки PIL, к сожалению, это не улучшил код.
images = np.asarray([cv2.imread(x) for x in tqdm(skin_df['path'], position=0)])
skin_df['image'] = [np.flip(img, axis=-1) for img in images]
Подробнее здесь: https://stackoverflow.com/questions/791 ... -a-datafra
При работе с большим набором данных код зависает при попытке импортировать его в фрейм данных. ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Альтаир терпит неудачу при создании грандиозной гистограммы с большим набором данных
Anonymous » » в форуме Python - 0 Ответы
- 11 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Оптимизация запросов для модуля учета perfex crm при работе с большим количеством данных
Anonymous » » в форуме Php - 0 Ответы
- 21 Просмотры
-
Последнее сообщение Anonymous
-