Повторный wandb.init() в параллельных проходах wandb

Повторный wandb.init() в параллельных проходах wandb ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Повторный wandb.init() в параллельных проходах wandb

Цитата

Сообщение Anonymous » 01 дек 2024, 09:56

Я написал некоторый код, пытаясь распараллелить свои проверки wandb, поскольку сходимость модели, с которой я работаю, занимает много времени, и мне нужно пройти множество подпроцессов. По сути, у меня сейчас нет такой роскоши, как время. Вот обобщенный фрагмент моего кода:

Код: Выделить всё

def run_pipeline(args):
# Stuff happens here

# Wandb init
group = "within_session" if session_config["within_session"] else "across_session"
run = wandb.init(name=f"{sessions[i]}_{group}_decoder_run", group=group, config=sweep_config, reinit=True)

# Model training

return results

def run_pipeline_wrapper(args):
# Stuff happens here
run_pipeline(args)

return None

if __name__ == "__main__":
total_runs = 30
agents = 5
runs_per_agent = total_runs // agents

sweep_config = {'method': 'random'}
parameters_dict = {
# Lota of parameters to sweep
}
sweep_config['parameters'] = parameters_dict

# Create a sweep id that stores sweep ids
sweep_id_json_path = 'sweep_id.json'
if not os.path.exists(sweep_id_json_path):
with open(sweep_id_json_path, 'w') as f:
json.dump({}, f)
sweep_id_json = json.load(open(sweep_id_json_path, 'r'))

# Sessions_list = number of unique data that I need to run my sweeps
for i in range(len(sessions_list)):

# Preparing a partial method to pass
run_pipeline_with_args = partial(run_pipeline_wrapper, args)

# I cache the existing sweep_ids in a json file to help in attaching sweep ids if I rerun the code again
if f"{sessions_list[i]}_{is_within}" not in sweep_id_json:
sweep_id = wandb.sweep(sweep_config, project=f"HPC_model_{sess}_session_{data}_{data_type}")
else:
sweep_id = wandb.sweep(sweep_config, project=f"HPC_model_{sess}_session_{data}_{data_type}"
, prior_runs=sweep_id_json[f"{sessions_list[i]}_{is_within}"])

# This is the parallelization logic, where I parallelize the sweeps
with concurrent.futures.ThreadPoolExecutor(max_workers=agents) as executor:
futures = [
executor.submit(wandb.agent, sweep_id, run_pipeline_with_args, count=runs_per_agent)
for _ in range(agents)
]

concurrent.futures.wait(futures)

Когда я запускаю этот код, он зависает в wandb.init(), и этот процесс в конечном итоге завершается из-за тайм-аута. Я не думаю, что это проблема увеличения таймаута wandb. Как мне это исправить? Как вы думаете, это может быть проблемой из-за моей логики распараллеливания? Если да, то как вы, разработчики, распараллеливаете проверки wandb в коде?

Подробнее здесь: https://stackoverflow.com/questions/792 ... ndb-sweeps

1733036193

Anonymous

Я написал некоторый код, пытаясь распараллелить свои проверки wandb, поскольку сходимость модели, с которой я работаю, занимает много времени, и мне нужно пройти множество подпроцессов. По сути, у меня сейчас нет такой роскоши, как время. Вот обобщенный фрагмент моего кода:
[code]def run_pipeline(args):
# Stuff happens here

# Wandb init
group = "within_session" if session_config["within_session"] else "across_session"
run = wandb.init(name=f"{sessions[i]}_{group}_decoder_run", group=group, config=sweep_config, reinit=True)

# Model training

return results

def run_pipeline_wrapper(args):
# Stuff happens here
run_pipeline(args)

return None

if __name__ == "__main__":
total_runs = 30
agents = 5
runs_per_agent = total_runs // agents

sweep_config = {'method': 'random'}
parameters_dict = {
# Lota of parameters to sweep
}
sweep_config['parameters'] = parameters_dict

# Create a sweep id that stores sweep ids
sweep_id_json_path = 'sweep_id.json'
if not os.path.exists(sweep_id_json_path):
with open(sweep_id_json_path, 'w') as f:
json.dump({}, f)
sweep_id_json = json.load(open(sweep_id_json_path, 'r'))

# Sessions_list = number of unique data that I need to run my sweeps
for i in range(len(sessions_list)):

# Preparing a partial method to pass
run_pipeline_with_args = partial(run_pipeline_wrapper, args)

# I cache the existing sweep_ids in a json file to help in attaching sweep ids if I rerun the code again
if f"{sessions_list[i]}_{is_within}" not in sweep_id_json:
sweep_id = wandb.sweep(sweep_config, project=f"HPC_model_{sess}_session_{data}_{data_type}")
else:
sweep_id = wandb.sweep(sweep_config, project=f"HPC_model_{sess}_session_{data}_{data_type}"
, prior_runs=sweep_id_json[f"{sessions_list[i]}_{is_within}"])

# This is the parallelization logic, where I parallelize the sweeps
with concurrent.futures.ThreadPoolExecutor(max_workers=agents) as executor:
futures = [
executor.submit(wandb.agent, sweep_id, run_pipeline_with_args, count=runs_per_agent)
for _ in range(agents)
]

concurrent.futures.wait(futures)
[/code]
Когда я запускаю этот код, он зависает в wandb.init(), и этот процесс в конечном итоге завершается из-за тайм-аута. Я не думаю, что это проблема увеличения таймаута wandb. Как мне это исправить? Как вы думаете, это может быть проблемой из-за моей логики распараллеливания? Если да, то как вы, разработчики, распараллеливаете проверки wandb в коде?
[img]https://i.sstatic.net/bZJyyvqU.png [/img]
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79240870/repeated-wandb-init-in-parallelized-wandb-sweeps[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Повторный wandb.init() в параллельных проходах wandb

Последнее сообщение Anonymous « 01 дек 2024, 06:56
Добавлено в форуме Python

Anonymous » 01 дек 2024, 06:56 » в форуме Python

Я написал некоторый код, пытаясь распараллелить свои проверки wandb, поскольку сходимость модели, с которой я работаю, занимает много времени, и мне нужно пройти множество подпроцессов. По сути, у меня сейчас нет такой роскоши, как время. Вот...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
01 дек 2024, 06:56
Повторный wandb.init() в параллельных проходах wandb

Последнее сообщение Anonymous « 02 дек 2024, 03:02
Добавлено в форуме Python

Anonymous » 02 дек 2024, 03:02 » в форуме Python

Я написал некоторый код, пытаясь распараллелить свои проверки wandb, поскольку сходимость модели, с которой я работаю, занимает много времени, и мне нужно пройти множество подпроцессов. По сути, у меня сейчас нет такой роскоши, как время. Вот...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
02 дек 2024, 03:02
Не может определить, какой экземпляр перегруженной функции "init :: init" предназначен

Последнее сообщение Anonymous « 08 июл 2025, 02:10
Добавлено в форуме C++

Anonymous » 08 июл 2025, 02:10 » в форуме C++

В настоящее время работает в C ++, пытаясь создать класс init, чтобы инициализировать часть поведения в GLFW и GLEW. В основном я перемещаю всю часть настройки в новый класс под названием Init. Init будет иметь методы для выполнения каждой части...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
08 июл 2025, 02:10
Как я могу войти в систему с точностью войти с Wandb и Deepspeed

Последнее сообщение Anonymous « 28 янв 2025, 03:12
Добавлено в форуме Python

Anonymous » 28 янв 2025, 03:12 » в форуме Python

Я хочу зарегистрировать точность моей модели после каждой эпохи и ее окончательную точность в конце, но я не могу найти простой способ сделать это. //www.youtube.com/watch?v=xichjx2_rm8
и эта ноутбука. br /> wandb.log(

Но я не знаю, куда его...

0 Ответы

31 Просмотры

Последнее сообщение Anonymous
28 янв 2025, 03:12
Модуль «Wandb» не имеет атрибута «API»

Последнее сообщение Anonymous « 18 апр 2025, 16:06
Добавлено в форуме Python

Anonymous » 18 апр 2025, 16:06 » в форуме Python

Я пытаюсь использовать Wandb в проекте, который я использую на сервере через SSH. Я создал и настроил виртуальную среду, но с Wandb я сталкиваюсь с ошибкой «модуль« Wandb »не имеет атрибута« API ». Сервер запускает Python 3.6.8 и установлен...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
18 апр 2025, 16:06

Вернуться в «Python»