Повышение эффективности крупномасштабного анализа графов посредством параллельной обработки

Повышение эффективности крупномасштабного анализа графов посредством параллельной обработки ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Повышение эффективности крупномасштабного анализа графов посредством параллельной обработки

Цитата

Сообщение Anonymous » 10 дек 2024, 03:56

У меня есть код Python, который сравнивает сходство имен между узлами в графе, содержащем 76 000 узлов. Код проверяет каждую возможную пару подграфов из одной страны и создает ребро между двумя узлами, если их имена похожи более чем на 92%. Это эффективно соединяет два подграфа.
В настоящее время я использую многопроцессорную обработку, чтобы ускорить этот процесс, но это все равно отнимает довольно много времени. Есть ли какие-либо потенциальные оптимизации, которые я мог бы внести в код?

Код: Выделить всё

def multiprocess_sub_graphs(graph):
"""
Process all pairs of subgraphs in parallel using multiprocessing.
"""
countries = set(node[1] for node in graph.nodes())
tasks = []

# Generate tasks
nodes_of_country = [node for node in graph.nodes() if node[1] == country]
sub_graphs_nodes = [
list(c) for c in sorted(connected_components(graph.subgraph(nodes_of_country)), key=len)
]
subgraph_combinations = combinations(sub_graphs_nodes, 2)

for combo in subgraph_combinations:
tasks.append(combo)

# Process tasks in parallel
with Pool() as pool:
result_edges = pool.imap_unordered(process_sub_graphs, tasks, chunksize=6)

# Collect results
return [x for x in result_edges if x is not None]

def name_pairs(names_a, names_b):
for name1 in names_a:
for name2 in names_b:
yield name1, name2

def process_sub_graphs(args):
"""
Compare two subgraphs to find matching edges based on node attributes.
"""
subgraph1_nodes, subgraph2_nodes = args
names_a = set()
names_b = set()

# Collect names from subgraph1
for node1 in subgraph1_nodes:
names_a.update(node1[1].get('all_names', []))

# Collect names from subgraph2
for node2 in subgraph2_nodes:
names_b.update(node2[1].get('all_names', []))

# Find matching nodes
for first_name, second_name in name_pairs(names_a, names_b):
if partial_match(first_name, second_name) > 92:
# Return an edge between the first nodes of each subgraph
return subgraph1_nodes[0], subgraph2_nodes[0]

return None

Вот пример структуры данных, используемой для представления графика:

Код: Выделить всё

 graph = nx.Graph()
graph.add_nodes_from([
(1, {"country": "A", "all_names": ["Alice"]}),
(2, {"country": "A", "all_names": ["Alicia"]}),
(3, {"country": "B", "all_names": ["Alicia"]}),
(4, {"country": "B", "all_names": ["Robert"]}),
])

Результат процесса должен добавить преимущество только между 1 и 2, поскольку они принадлежат одной стране.
Спасибо.

Подробнее здесь: https://stackoverflow.com/questions/792 ... processing

1733792179

Anonymous

У меня есть код Python, который сравнивает сходство имен между узлами в графе, содержащем 76 000 узлов. Код проверяет каждую возможную пару подграфов из одной страны и создает ребро между двумя узлами, если их имена похожи более чем на 92%. Это эффективно соединяет два подграфа.
В настоящее время я использую многопроцессорную обработку, чтобы ускорить этот процесс, но это все равно отнимает довольно много времени. Есть ли какие-либо потенциальные оптимизации, которые я мог бы внести в код?
[code]def multiprocess_sub_graphs(graph):
"""
Process all pairs of subgraphs in parallel using multiprocessing.
"""
countries = set(node[1] for node in graph.nodes())
tasks = []

# Generate tasks
nodes_of_country = [node for node in graph.nodes() if node[1] == country]
sub_graphs_nodes = [
list(c) for c in sorted(connected_components(graph.subgraph(nodes_of_country)), key=len)
]
subgraph_combinations = combinations(sub_graphs_nodes, 2)

for combo in subgraph_combinations:
tasks.append(combo)

# Process tasks in parallel
with Pool() as pool:
result_edges = pool.imap_unordered(process_sub_graphs, tasks, chunksize=6)

# Collect results
return [x for x in result_edges if x is not None]

def name_pairs(names_a, names_b):
for name1 in names_a:
for name2 in names_b:
yield name1, name2

def process_sub_graphs(args):
"""
Compare two subgraphs to find matching edges based on node attributes.
"""
subgraph1_nodes, subgraph2_nodes = args
names_a = set()
names_b = set()

# Collect names from subgraph1
for node1 in subgraph1_nodes:
names_a.update(node1[1].get('all_names', []))

# Collect names from subgraph2
for node2 in subgraph2_nodes:
names_b.update(node2[1].get('all_names', []))

# Find matching nodes
for first_name, second_name in name_pairs(names_a, names_b):
if partial_match(first_name, second_name) > 92:
# Return an edge between the first nodes of each subgraph
return subgraph1_nodes[0], subgraph2_nodes[0]

return None
[/code]
Вот пример структуры данных, используемой для представления графика:
[code] graph = nx.Graph()
graph.add_nodes_from([
(1, {"country": "A", "all_names": ["Alice"]}),
(2, {"country": "A", "all_names": ["Alicia"]}),
(3, {"country": "B", "all_names": ["Alicia"]}),
(4, {"country": "B", "all_names": ["Robert"]}),
])
[/code]
Результат процесса должен добавить преимущество только между 1 и 2, поскольку они принадлежат одной стране.
Спасибо. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79266781/improving-efficiency-in-large-scale-graph-analysis-through-parallel-processing[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Повышение эффективности рекурсивного цикла в функции генерации чисел

Последнее сообщение Anonymous « 28 окт 2024, 00:43
Добавлено в форуме Python

Anonymous » 28 окт 2024, 00:43 » в форуме Python

У меня есть программа, в которой я прошу пользователя ввести вес собранных растений, а затем сколько всего растений было собрано, затем генерируется список чисел в диапазоне +100 или -100, в сумме общий вес собранных растений. Моя проблема в том,...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
28 окт 2024, 00:43
Список в словарь – повышение эффективности

Последнее сообщение Anonymous « 29 окт 2024, 22:36
Добавлено в форуме Python

Anonymous » 29 окт 2024, 22:36 » в форуме Python

Я пытаюсь создать функцию, которая принимает двумерный список и возвращает словарь. Мне интересно, есть ли более эффективный способ вместо того, что я написал (например, понимание списка/itertools?). Я относительно новичок в Python и прочитал...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
29 окт 2024, 22:36
SciPy: минимизация против метода наименьших квадратов для крупномасштабного метода наименьших квадратов

Последнее сообщение Anonymous « 07 дек 2023, 20:36
Добавлено в форуме Python

Anonymous » 07 дек 2023, 20:36 » в форуме Python

У меня есть крупномасштабная неограниченная нелинейная задача наименьших квадратов с примерно 300 000 остатками и 300 параметрами. Интересно, какой метод быстрее и точнее ее решить: scipy.optimize.minimize или scipy.optimizy.least_squares?

0 Ответы

80 Просмотры

Последнее сообщение Anonymous
07 дек 2023, 20:36
Разработка крупномасштабного приложения на графическом процессоре [закрыто]

Последнее сообщение Anonymous « 01 май 2024, 14:57
Добавлено в форуме C++

Anonymous » 01 май 2024, 14:57 » в форуме C++

Как лучше всего разработать приложение среднего и большого размера на графическом процессоре с помощью CUDA? По сути, все учебные пособия, с которыми я сталкивался, обычно представляют собой вариации одних и тех же основных шагов:

Создайте...

0 Ответы

42 Просмотры

Последнее сообщение Anonymous
01 май 2024, 14:57
Реализация Python для ценовой модели — безмасштабная модель роста сети для ориентированных графов

Последнее сообщение Anonymous « 01 июл 2024, 21:13
Добавлено в форуме Python

Anonymous » 01 июл 2024, 21:13 » в форуме Python

Я пытаюсь создать безмасштабную модель роста сети в networkx на Python. На Github существует множество ресурсов по модели Барабасси-Альберта, но мой график должен быть направленным, а BA предназначен только для неориентированных графов.
Я понимаю,...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
01 июл 2024, 21:13

Вернуться в «Python»