Наиболее эффективный способ использования большого набора данных изображений с Google Colab - Получение тайм -аута + оши

Наиболее эффективный способ использования большого набора данных изображений с Google Colab - Получение тайм -аута + оши ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Наиболее эффективный способ использования большого набора данных изображений с Google Colab - Получение тайм -аута + оши

Цитата

Сообщение Anonymous » 06 июл 2025, 12:26

Я использую Google colab для классификатора в Pytorch, и мой набор обучения имеет ~ 30 000 изображений JPEG, которые я хранил в своем Google Drive. Эффективно использование этого большого количества данных с Colab и Drive было кошмаром, в первую очередь потому, что мой Google Drive имеет тенденцию к сбою или «Time Out», когда я пытаюсь читать изображения из папки. т.е., мой набор данных pytorch объект выглядит как:

Код: Выделить всё

class Dataset(torch.utils.data.Dataset):
def __init__(self, image_ids, labels):
self.image_ids = image_ids
self.labels = labels

def __len__(self):
return len(self.image_ids)

def __getitem__(self, i):
img_path = f'drive/MyDrive/images/{image_ids[i]}'
img = transforms.ToTensor()(PIL.Image.open(img_path)
label = self.labels[i]
return img, label

Таким образом, когда __getitem __ вызывается, он считывает изображение из изображений папок в моем Google Drive (где хранятся все 30 000 изображений). Тем не менее, это создает проблему, что, когда я создаю DataLoader и цикл над Minibatches, это дает мне ошибку, что «время ожидания Google Drive», которая, по -видимому, иногда происходит с большими папками в Google Drive.

Tensordataset . Для этого я должен сначала создать огромный тензор всех 30000 учебных изображений, то есть формы (30000, 3, 128, 128) (каждое изображение 3x128x128), которое требует немного времени. Итак, я не могу делать это каждый раз, когда запускаю свой код, поэтому я пытаюсь сохранить этот большой тензор, но это приводит к проблемам памяти в моей колабах, что сбоятся во время выполнения. Кроме того, это как 12 ГБ, так что я уверен, что это не эффективный способ. < /P>
< /li>
< /ol>
Как я могу это сделать? Установка очень проста, но она оказалась немного раздражающей, потому что Google Drive не кажется созданным для этих вещей. У меня просто есть папка из 30 000 изображений, которые я хочу прочитать как тензоры Torch (в Minibatches для обучения) в Colab. Как лучше всего это сделать, и/или как я могу решить проблемы в подходах, которые я обсуждал выше? Но по какой -то причине чтение вещей из папки Google Drive, в которой есть много элементов (у этого есть 30 000), приводит к тому, что называется «Тайм -аутом Google Drive». Тот же процесс является тривиальным для процессора моего компьютера, но мне нужны графические процессоры для обучения, поэтому мне нужно иметь возможность сделать это на Colab. Я не знаю, как это решить.>

Подробнее здесь: https://stackoverflow.com/questions/749 ... etting-dri

1751793998

Anonymous

 Я использую Google colab для классификатора в Pytorch, и мой набор обучения имеет ~ 30 000 изображений JPEG, которые я хранил в своем Google Drive. Эффективно использование этого большого количества данных с Colab и Drive было кошмаром, в первую очередь потому, что мой Google Drive имеет тенденцию к сбою или «Time Out», когда я пытаюсь читать изображения из папки. т.е., мой набор данных pytorch  объект выглядит как: 
[code]class Dataset(torch.utils.data.Dataset):
def __init__(self, image_ids, labels):
self.image_ids = image_ids
self.labels = labels

def __len__(self):
return len(self.image_ids)

def __getitem__(self, i):
img_path = f'drive/MyDrive/images/{image_ids[i]}'
img = transforms.ToTensor()(PIL.Image.open(img_path)
label = self.labels[i]
return img, label
[/code]
Таким образом, когда __getitem __  вызывается, он считывает изображение из изображений папок  в моем Google Drive (где хранятся все 30 000 изображений). Тем не менее, это создает проблему, что, когда я создаю DataLoader и цикл над Minibatches, это дает мне ошибку, что «время ожидания Google Drive», которая, по -видимому, иногда происходит с большими папками в Google Drive. 

 Tensordataset . Для этого я должен сначала создать огромный тензор всех 30000 учебных изображений, то есть формы (30000, 3, 128, 128)  (каждое изображение 3x128x128), которое требует немного времени. Итак, я не могу делать это каждый раз, когда запускаю свой код, поэтому я пытаюсь сохранить этот большой тензор, но это приводит к проблемам памяти в моей колабах, что сбоятся во время выполнения. Кроме того, это как 12 ГБ, так что я уверен, что это не эффективный способ. < /P>
< /li>
< /ol>
Как я могу это сделать? Установка очень проста, но она оказалась немного раздражающей, потому что Google Drive не кажется созданным для этих вещей. У меня просто есть папка из 30 000 изображений, которые я хочу прочитать как тензоры Torch (в Minibatches для обучения) в Colab. Как лучше всего это сделать, и/или как я могу решить проблемы в подходах, которые я обсуждал выше? Но по какой -то причине чтение вещей из папки Google Drive, в которой есть много элементов (у этого есть 30 000), приводит к тому, что называется «Тайм -аутом Google Drive». Тот же процесс является тривиальным для процессора моего компьютера, но мне нужны графические процессоры для обучения, поэтому мне нужно иметь возможность сделать это на Colab. Я не знаю, как это решить.> 

Подробнее здесь: [url]https://stackoverflow.com/questions/74968093/most-efficient-way-to-use-a-large-image-dataset-with-google-colab-getting-dri[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Получение ошибки тайм-аута — увеличьте значение тайм-аута отправки при привязке.

Последнее сообщение Anonymous « 21 сен 2024, 08:03
Добавлено в форуме C#

Anonymous » 21 сен 2024, 08:03 » в форуме C#

Служба WCF возвращает ошибку тайм-аута, как показано ниже.
Время ожидания канала запроса истекло при ожидании ответа после XX:XX: XX увеличивает значение тайм-аута отправки при привязке. Время, отведенное для этой операции, возможно, было частью...

0 Ответы

62 Просмотры

Последнее сообщение Anonymous
21 сен 2024, 08:03
Получение ошибки тайм-аута — увеличьте значение тайм-аута отправки при привязке.

Последнее сообщение Anonymous « 21 янв 2025, 13:03
Добавлено в форуме C#

Anonymous » 21 янв 2025, 13:03 » в форуме C#

Служба WCF возвращает ошибку тайм-аута, как показано ниже.
Время ожидания канала запроса истекло при ожидании ответа после XX:XX: XX увеличивает значение тайм-аута отправки при привязке. Время, отведенное для этой операции, возможно, было частью...

0 Ответы

46 Просмотры

Последнее сообщение Anonymous
21 янв 2025, 13:03
Тайм-ауты Laravel Job при потоковой передаче большого файла из S3 в Cloudflare R2, несмотря на увеличение тайм-аута до 6

Последнее сообщение Anonymous « 28 июн 2024, 15:51
Добавлено в форуме Php

Anonymous » 28 июн 2024, 15:51 » в форуме Php

Используя Laravel v10, я пытаюсь передать данные PDF из S3 в Cloudflare R2, используя файловую систему Laravel вместе с League/flysystem-aws-s3-v3, этот процесс выполняется через выделенную очередь. Большую часть времени он работает отлично, но...

0 Ответы

56 Просмотры

Последнее сообщение Anonymous
28 июн 2024, 15:51
Наиболее эффективный способ поиска, если какое -либо слово в сообщении начинается с любого слова из большого набора данн

Последнее сообщение Anonymous « 28 апр 2025, 19:04
Добавлено в форуме Python

Anonymous » 28 апр 2025, 19:04 » в форуме Python

У меня есть список сообщений, и мне нужно через каждое сообщение, для каждого сообщения, которое мне нужно найти, если слово в этом сообщении соответствует слову из моего набора данных или начинается с слова из моего набора данных, я не могу найти...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
28 апр 2025, 19:04
Ошибка тайм-аута при подключении потока данных Google к хранилищу памяти Google: проверены конфигурации сети и брандмауэ

Последнее сообщение Anonymous « 26 окт 2023, 04:52
Добавлено в форуме Python

Anonymous » 26 окт 2023, 04:52 » в форуме Python

Привет, сообщество Stack Overflow!

Я столкнулся с проблемой при подключении Google Dataflow к Google Memorystore (Redis) и буду признателен за любые идеи и предложения. Несмотря на подтверждение конфигурации сети и правил брандмауэра, мои задания...

0 Ответы

50 Просмотры

Последнее сообщение Anonymous
26 окт 2023, 04:52

Вернуться в «Python»