Загрузка многих файлов PyTorch .pt с Google Диска в Google Colab происходит очень медленно.Python

Программы на Python
Ответить
Anonymous
 Загрузка многих файлов PyTorch .pt с Google Диска в Google Colab происходит очень медленно.

Сообщение Anonymous »

Я храню свои встроенные белки ESM в виде отдельных файлов .pt на Google Диске (около 46 000 файлов, общий размер ~182 МБ).
Когда я пытаюсь загрузить их в Google Colab, процесс происходит очень медленно (всего ~2 файла в секунду).
Вот мой код:

Код: Выделить всё

import glob
import torch
from tqdm import tqdm

folder = "drive/MyDrive/train_embeddings_35M/*.pt"

id_to_emb = {}
files = glob.glob(folder)

print("Total files:", len(files))

for file in tqdm(files, desc="Loading embeddings"):
data = torch.load(file, map_location="cuda")

raw_id = data["entry_id"]
formatted_id = raw_id.split("|")[1]

layer = list(data["mean_representations"].keys())[0]
emb = data["mean_representations"][layer]

id_to_emb[formatted_id] = emb
Это мой результат:

Код: Выделить всё

Total files: 46181
Loading embeddings:   3%|▎         | 1380/46181 [07:50

Подробнее здесь: [url]https://stackoverflow.com/questions/79831527/loading-many-pytorch-pt-files-from-google-drive-in-google-colab-is-extremely-sl[/url]
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»