"OSERROR: [ERRNO 7] Список аргументов слишком долго" в Open (PATH, 'WB') - JOWPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 "OSERROR: [ERRNO 7] Список аргументов слишком долго" в Open (PATH, 'WB') - JOW

Сообщение Anonymous »

Я выполняю несколько заданий в кластере GPU Slurm, используя пакет Python Recodit, и я получаю странную ошибку неопределенно. У меня есть несколько вызовов, чтобы сохранить моего текущего агента (модель JAX), и большинство из них работают нормально. Я напечатал os.environ, он не меняется от звонка к вызову. Пути также не становятся значительно больше (один из персонажей, в большинстве случаев, другие сэкономить с той же длиной). Примером пути является logs/gcbc_explore_32c_disc-acttraj/run_logs/configuration_26/phase_0/seed_3/params_50000.pkl
, к сожалению, у меня нет воспроизводимого примера, как я не могу Ужмите его вообще до сих пор. < /p>
1047 │ Traceback (most recent call last):
1048 │ File "", line 198, in _run_module_as_main
1049 │ File "", line 88, in _run_code
1050 │ File "/bigwork/username/.conda/envs/gcrl/lib/python3.12/site-packages/submitit/core/_submit.py", line 11, in
1051 │ submitit_main()
1052 │ File "/bigwork/username/.conda/envs/gcrl/lib/python3.12/site-packages/submitit/core/submission.py", line 76, in submitit_main
1053 │ process_job(args.folder)
1054 │ File "/bigwork/username/.conda/envs/gcrl/lib/python3.12/site-packages/submitit/core/submission.py", line 69, in process_job
1055 │ raise error
1056 │ File "/bigwork/username/.conda/envs/gcrl/lib/python3.12/site-packages/submitit/core/submission.py", line 55, in process_job
1057 │ result = delayed.result()
1058 │ ^^^^^^^^^^^^^^^^
1059 │ File "/bigwork/username/.conda/envs/gcrl/lib/python3.12/site-packages/submitit/core/utils.py", line 137, in result
1060 │ self._result = self.function(*self.args, **self.kwargs)
1061 │ ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
1062 │ File "/bigwork/username/.conda/envs/gcrl/lib/python3.12/site-packages/gcrl_landscapes/main.py", line 250, in run_config_slurm_tas
│ ks_wrapper
1063 │ return run_config(
1064 │ ^^^^^^^^^^^
1065 │ File "/bigwork/username/.conda/envs/gcrl/lib/python3.12/site-packages/gcrl_landscapes/main.py", line 160, in run_config
1066 │ eval_trajectory = train(
1067 │ ^^^^^^
1068 │ File "/bigwork/username/.conda/envs/gcrl/lib/python3.12/site-packages/gcrl_landscapes/training.py", line 270, in train
1069 │ save_agent(agent, str(save_dir), i)
1070 │ File "/bigwork/username/.conda/envs/gcrl/lib/python3.12/site-packages/ogbench/impls/utils/flax_utils.py", line 175, in save_agent
1071 │ with open(save_path, 'wb') as f:
1072 │ ^^^^^^^^^^^^^^^^^^^^^
1073 │ OSError: [Errno 7] Argument list too long
< /code>
Отправка в кластер выполняется следующим образом. executor = submitit.AutoExecutor(folder=str(args.logdir / "submitit" / "%j"))
executor.update_parameters(
cpus_per_task=4,
slurm_time=int(60 * args.tasks_per_node * ((200000 - args.phase) / 200000)), # this overestimates, keep safety margin
slurm_gpus_per_node=1,
tasks_per_node=args.tasks_per_node,
slurm_mem_per_cpu="1G",
slurm_array_parallelism=50,
slurm_partition=args.partition,
slurm_job_name=args.jobname,
slurm_mail_user=...,
slurm_mail_type="BEGIN,FAIL,END",
)
executor.map_array(run_config_slurm_tasks_wrapper, *chunked_arguments)
< /code>
Сохранная часть кода выглядит так (из Ogbench): < /p>
def save_agent(agent, save_dir, epoch):
"""Save the agent to a file.

Args:
agent: Agent.
save_dir: Directory to save the agent.
epoch: Epoch number.
"""

save_dict = dict(
agent=flax.serialization.to_state_dict(agent),
)
save_path = os.path.join(save_dir, f'params_{epoch}.pkl')
with open(save_path, 'wb') as f:
pickle.dump(save_dict, f)

print(f'Saved to {save_path}')
< /code>
Я знаю, что это не так много, но у меня нет идей. Если кто -то имеет какую -либо подсказку о том, почему это происходит, я рад любой помощи.


Подробнее здесь: https://stackoverflow.com/questions/794 ... -slurm-job
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»