Тренажер для высокочастотных трансформаторов Deepspeed Ошибка: файл существует: «путь к выходной папке» ⇐ Python
Тренажер для высокочастотных трансформаторов Deepspeed Ошибка: файл существует: «путь к выходной папке»
Я выполняю тренажер трансформеров Huggingface на большой скорости. Я получаю сообщение об ошибке:
FileExistsError: [Errno 17] Файл существует: «путь к выходной папке», что приводит к Ошибка выполнения: сброс соединения по одноранговому узлу
Тот же код работал на моей предыдущей машине AWS. Я попробовал несколько машин сейчас, и это терпит неудачу. без дипспида работает.
Предложения, как решить? спасибо
Версия Pytorch: torch-2.0.0%2Bcu117-cp39-cp39-linux_x86_64.whl версия cuda: 1.16 (раньше работало, несмотря на разницу) версия трансформера: 4.31.0 (также пробовали с версиями трансформеров == 4.28.1) версия скорости: 0.10.0
полное сообщение об ошибке:
24.10.2023 10:51:55 - INFO - datasets.arrow_dataset - Кэширование обработанного набора данных по адресу path-to-dataset.hf/test/cache-3be4a1d745d25505_00054_of_00064.arrow Кэширование обработанного набора данных по пути к- dataset.hf/test/cache-3be4a1d745d25505_ 00063_of_00064.arrow 24.10.2023 10:51:55 - ИНФО - datasets.arrow_dataset - Кэширование обработанного набора данных по адресу path-to-dataset.hf/test/cache-3be4a1d745d25505_00063_of_0 0064.arrow Группировка текстов частями по 4096 (num_proc=64): 100%|██████████| 2015/2015 [00:01
Я выполняю тренажер трансформеров Huggingface на большой скорости. Я получаю сообщение об ошибке:
FileExistsError: [Errno 17] Файл существует: «путь к выходной папке», что приводит к Ошибка выполнения: сброс соединения по одноранговому узлу
Тот же код работал на моей предыдущей машине AWS. Я попробовал несколько машин сейчас, и это терпит неудачу. без дипспида работает.
Предложения, как решить? спасибо
Версия Pytorch: torch-2.0.0%2Bcu117-cp39-cp39-linux_x86_64.whl версия cuda: 1.16 (раньше работало, несмотря на разницу) версия трансформера: 4.31.0 (также пробовали с версиями трансформеров == 4.28.1) версия скорости: 0.10.0
полное сообщение об ошибке:
24.10.2023 10:51:55 - INFO - datasets.arrow_dataset - Кэширование обработанного набора данных по адресу path-to-dataset.hf/test/cache-3be4a1d745d25505_00054_of_00064.arrow Кэширование обработанного набора данных по пути к- dataset.hf/test/cache-3be4a1d745d25505_ 00063_of_00064.arrow 24.10.2023 10:51:55 - ИНФО - datasets.arrow_dataset - Кэширование обработанного набора данных по адресу path-to-dataset.hf/test/cache-3be4a1d745d25505_00063_of_0 0064.arrow Группировка текстов частями по 4096 (num_proc=64): 100%|██████████| 2015/2015 [00:01
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Тренажер Huggingface не показывает никакого прогресса в тонкой настройке
Anonymous » » в форуме Python - 0 Ответы
- 10 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Deepspeed: AttributeError: объект «DummyOptim» не имеет атрибута «шаг».
Anonymous » » в форуме Python - 0 Ответы
- 18 Просмотры
-
Последнее сообщение Anonymous
-