с < /p>
Код: Выделить всё
jax.__version__ # 0.4.33 9Feb2025
orbax.checkpoint.__version__ # 0.6.4 9Feb2025
Я управлял приготовить что -то, но я бродил, если я поступаю правильно, используя 8tpus на Colab; Например, он может сохранить один экземпляр модели среди 8 существующих (т.е. использование лена. -Ппи симпатичный отпечаток ">ckpt = {'model': flax.jax_utils.unreplicate(model_state)}
< /code>
)
при восстановлении в той же среде после < /p>
target={'model': abstract_state} # a Training State quite dummy
chpt_restored = checkpoint_manager.restore(checkpoint_manager.latest_step(), items=target)
< /code>
One Restaure 8 Vesions с использованием < /p>
new_model_state = flax.jax_utils.replicate(chpt_restored['model'])
< /code>
Но это 8 реплицированная версия модели с тем же экземпляром. Может ли возобновить первую тренировку, чтобы продолжить обучение, так как можно использовать уникальный экземпляр на второй тренировке?
Надеюсь, что мне было ясно. Любой комментарий к фрагменту Colab приветствуется.
Подробнее здесь: https://stackoverflow.com/questions/794 ... -8-devices