Я безуспешно пробовал следующие подходы:
- Задайте переменные среды, такие как HF_HOME, DOWNLOADED_DATASETS_PATH, HF_DATASETS_CACHE и HF_CACHE_HOME, чтобы они указывали на каталог Google Диска:
Код: Выделить всё
import os
from pathlib import Path
from datasets import config
datasets_drive_dir = "/content/drive/MyDrive/my_huggingface"
if not os.path.isdir(datasets_drive_dir):
print("Directory doesn't exist - creating it")
os.mkdir(datasets_drive_dir)
os.environ\['HF_HOME'\] = datasets_drive_dir
os.environ\['DOWNLOADED_DATASETS_PATH'\] = datasets_drive_dir
os.environ\['HF_DATASETS_CACHE'\] = datasets_drive_dir
os.environ\['HF_CACHE_HOME'\] = datasets_drive_dir
config.DOWNLOADED_DATASETS_PATH = Path(datasets_drive_dir)
config.HF_DATASETS_CACHE = Path(datasets_drive_dir)
config.HF_CACHE_HOME = Path(datasets_drive_dir)
- Изменил каталог кэша, установив кэш_dir в самой функции:
Код: Выделить всё
load_dataset(DATASET_NAME, 'pre', cache_dir=datasets_drive_dir)

Также, когда я попробовал режим потоковой передачи, но во время обучения обнаружил следующую ошибку:
Код: Выделить всё
huggingface_hub.utils._errors.HfHubHTTPError: 500 Server Error: Internal Server Error..
Подробнее здесь: https://stackoverflow.com/questions/790 ... e-in-colab