Распараллеливание модели en_core_web_lg SpaCy на нескольких узлах с использованием MPI

Распараллеливание модели en_core_web_lg SpaCy на нескольких узлах с использованием MPI ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Распараллеливание модели en_core_web_lg SpaCy на нескольких узлах с использованием MPI

Цитата

Сообщение Anonymous » 27 сен 2024, 15:58

В настоящее время я работаю над извлечением троек субъект-глагол-объект (SVO) из предложений в двух входных документах с помощью SpaCy. Я планирую запустить этот процесс на нескольких вычислительных узлах и начал изучать возможность распараллеливания с использованием MPI. Однако я столкнулся с серьезной проблемой, связанной с использованием памяти и обменом данными между процессами.
Проблема:
Для обработки текста я использую модель en_core_web_lg. Проблема в том, что загрузка модели в каждом процессе приводит к тому, что у меня заканчивается основная память до завершения задачи. Чтобы смягчить это, я попытался изолировать части кода, требующие модели, в один процесс, намереваясь передать результаты другим процессам для дальнейших вычислений. Однако проблема в том, что результаты (словарь токенов) нельзя сериализовать и использовать в разных процессах.
Вопросы:

Есть ли лучший способ распараллелить модель en_core_web_lg SpaCy, не дублируя ее в нескольких процессах? Например, можно ли использовать общую память, чтобы избежать загрузки модели отдельно для каждого процесса?
Альтернативно, есть ли способ избежать сериализации результирующие словари токенов, чтобы их можно было транслировать или совместно использовать между процессами?

Вот фрагмент моего кода для контекста:

Код: Выделить всё

# Imports, model loading, and MPI setup
nlp = load_nlp_model()  # Loading en_core_web_lg
customize_nlp_model(nlp)

comm_world = MPI.COMM_WORLD
rank = comm_world.Get_rank()
size = comm_world.Get_size()

ref_parsed_doc, cand_parsed_doc = list(nlp.pipe([ref_text, cand_text]))

if rank == 0:
chunks_ref = chunk_doc(ref_parsed_doc, size)

chunk_ref = comm_world.scatter(chunks_ref, root=0)
ref_svos = process_chunk(chunk_ref, ref_parsed_doc, nlp, t_model)  # Parallel computation

# Gather results from all processes
ref_results = comm_world.gather(ref_svos, root=0)

Я пытался загрузить объект модели nlp в каждый процесс MPI, но программа аварийно завершает работу из-за нехватки основной памяти. Я также пытался поделиться вычислениями, выполненными после использования модели nlp, но токены SpaCy не поддерживают травление.

Подробнее здесь: https://stackoverflow.com/questions/790 ... -using-mpi

1727441899

Anonymous

В настоящее время я работаю над извлечением троек субъект-глагол-объект (SVO) из предложений в двух входных документах с помощью SpaCy. Я планирую запустить этот процесс на нескольких вычислительных узлах и начал изучать возможность распараллеливания с использованием MPI. Однако я столкнулся с серьезной проблемой, связанной с использованием памяти и обменом данными между процессами.
[b]Проблема:[/b]
Для обработки текста я использую модель en_core_web_lg. Проблема в том, что загрузка модели в каждом процессе приводит к тому, что у меня заканчивается основная память до завершения задачи. Чтобы смягчить это, я попытался изолировать части кода, требующие модели, в один процесс, намереваясь передать результаты другим процессам для дальнейших вычислений. Однако проблема в том, что результаты (словарь токенов) нельзя сериализовать и использовать в разных процессах.
[b]Вопросы:[/b]
[list]
[*]Есть ли лучший способ распараллелить модель en_core_web_lg SpaCy, не дублируя ее в нескольких процессах? Например, можно ли использовать общую память, чтобы избежать загрузки модели отдельно для каждого процесса?

[*]Альтернативно, есть ли способ избежать сериализации результирующие словари токенов, чтобы их можно было транслировать или совместно использовать между процессами?

[/list]
Вот фрагмент моего кода для контекста: 
[code]# Imports, model loading, and MPI setup
nlp = load_nlp_model()  # Loading en_core_web_lg
customize_nlp_model(nlp)

comm_world = MPI.COMM_WORLD
rank = comm_world.Get_rank()
size = comm_world.Get_size()

ref_parsed_doc, cand_parsed_doc = list(nlp.pipe([ref_text, cand_text]))

if rank == 0:
chunks_ref = chunk_doc(ref_parsed_doc, size)

chunk_ref = comm_world.scatter(chunks_ref, root=0)
ref_svos = process_chunk(chunk_ref, ref_parsed_doc, nlp, t_model)  # Parallel computation

# Gather results from all processes
ref_results = comm_world.gather(ref_svos, root=0)
[/code]
Я пытался загрузить объект модели nlp в каждый процесс MPI, но программа аварийно завершает работу из-за нехватки основной памяти. Я также пытался поделиться вычислениями, выполненными после использования модели nlp, но токены SpaCy не поддерживают травление. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79031469/parallelizing-spacys-en-core-web-lg-model-across-multiple-nodes-using-mpi[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Проблема со связью MPI в Python (с использованием MPI.COMM_WORLD.isend и MPI.COMM_WORLD.irecv) — нет получения

Последнее сообщение Anonymous « 17 дек 2024, 22:01
Добавлено в форуме Python

Anonymous » 17 дек 2024, 22:01 » в форуме Python

Я работаю над параллельной программой, использующей mpi4py в Python, и столкнулся с проблемой, когда данные отправляются с помощью MPI.COMM_WORLD.isend, но когда принимающий процесс пытается получить данные с помощью MPI.COMM_WORLD.irecv, он...

0 Ответы

26 Просмотры

Последнее сообщение Anonymous
17 дек 2024, 22:01
Как запустить сценарий MPI Python на нескольких узлах в кластере Slurm? Ошибка: Предупреждение: невозможно запустить 1 п

Последнее сообщение Anonymous « 07 ноя 2024, 00:37
Добавлено в форуме Python

Anonymous » 07 ноя 2024, 00:37 » в форуме Python

Я запускаю сценарий в кластере Slurm, который может выиграть от параллельной обработки, поэтому я пытаюсь реализовать MPI. Однако, похоже, это не позволяет мне запускать процессы на нескольких узлах. Я не знаю, делается ли это обычно автоматически,...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
07 ноя 2024, 00:37
Изменение стиля на узлах Vue-Flow не работает на пользовательских узлах

Последнее сообщение Anonymous « 28 апр 2025, 19:55
Добавлено в форуме CSS

Anonymous » 28 апр 2025, 19:55 » в форуме CSS

В моем графике Vue-Flow я определил узел без обработчиков источника и целевых.

import type {NodeProps} from @vue-flow/core ;
defineProps();

{{ data.label }}

Это работает хорошо, за исключением того, что я не могу изменить цвет фона при...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
28 апр 2025, 19:55
Можно ли переносить старые модели Spacy в будущие версии Spacy?

Последнее сообщение Anonymous « 22 июн 2025, 14:27
Добавлено в форуме Python

Anonymous » 22 июн 2025, 14:27 » в форуме Python

Последние версии Spacy имеют лучшую производительность и совместимость для ускорения графического процессора на устройствах Apple, но у меня есть существующий проект, который зависит от Spacy 3.1.4 и некоторых конкретных поведения моделей 3.1.0 (Web...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
22 июн 2025, 14:27
Spacy nlp = spacy.load("en_core_web_lg")

Последнее сообщение Anonymous « 22 сен 2024, 13:08
Добавлено в форуме Python

Anonymous » 22 сен 2024, 13:08 » в форуме Python

У меня уже загружен SpaCy, но каждый раз, когда я пытаюсь выполнить команду nlp = spacy.load( en_core_web_lg ), я получаю следующую ошибку:

OSError: Can't find model 'en_core_web_lg'. It doesn't seem to be a shortcut link, a Python package or a...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
22 сен 2024, 13:08

Вернуться в «Python»