Разделение больших наборов данных графа R-MAT из двоичного файла

Разделение больших наборов данных графа R-MAT из двоичного файла ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Разделение больших наборов данных графа R-MAT из двоичного файла

Цитата

Сообщение Anonymous » 07 окт 2024, 20:07

В настоящее время я использую скрипт Python, чтобы найти идеальную точку с количеством ненулевых значений (nnz) для разделения разреженного графа: (из этого ответа)

Код: Выделить всё

def myhorsplit(
matrix: sparse.sparray, n_compute_units: int = 4,
) -> list[sparse.sparray]:
nnz = matrix.getnnz(axis=1).cumsum()
total = nnz[-1]
ideal_breaks = np.arange(0, total, total/n_compute_units)
break_idx = [*nnz.searchsorted(ideal_breaks), None]
return [
matrix[i: j, :]
for i, j in zip(break_idx[:-1], break_idx[1:])
]
def main() -> None:
rand = np.random.default_rng(seed=0)
# Create an 8x8 adjacency matrix with the modified element
adjacency_matrix = [
(1, 1, 1, 1, 0, 0, 0, 0),
(1, 0, 1, 0, 0, 0, 0, 0),
(1, 1, 0, 1, 0, 0, 0, 0),
(1, 0, 1, 0, 0, 0, 0, 0),
(0, 0, 1, 0, 0, 1, 0, 1),
(0, 0, 0, 0, 1, 0, 0, 0),
(0, 0, 0, 0, 1, 1, 0, 1),
(0, 0, 1, 0, 1, 0, 1, 0),
]
# csr_matrix = sparse.csr_array(adjacency_matrix)
csr_matrix = sparse.csr_array(
rand.integers(low=0, high=2, size=(10_000, 50), dtype=np.uint8)
)

partitions = myhorsplit(csr_matrix)

for i, partition in enumerate(partitions):
print(f"Partition {i}: {partition.nnz} ones, shape {partition.shape}")
# print(partition.toarray())

Итак, пример кода разделен на 4 раздела:

Код: Выделить всё

Partition 0: 4 ones, shape (1, 8)
[[1 1 1 1 0 0 0 0]]
Partition 1: 5 ones, shape (2, 8)
[[1 0 1 0 0 0 0 0]
[1 1 0 1 0 0 0 0]]
Partition 2: 6 ones, shape (3, 8)
[[1 0 1 0 0 0 0 0]
[0 0 1 0 0 1 0 1]
[0 0 0 0 1 0 0 0]]
Partition 3: 6 ones, shape (2, 8)
[[0 0 0 0 1 1 0 1]
[0 0 1 0 1 0 1 0]]

В настоящее время я пытаюсь разделить график R-MAT с масштабом = 29 и краевым коэффициентом = 16, что составляет около 120 ГБ двоичного файла для чтения и преобразования в разреженный массив. Этот скрипт Python зависает с сообщением OOM Killed.
Мне было интересно, есть ли способ добиться такого разделения из двоичного файла (сгенерированного с помощью Graph500), прочитав файл только ?
Я подумал, что один из вариантов - найти оптимальную функцию, которая ранжирует все ребра в зависимости от их исходного узла, а затем разделяет их, что все равно сохранит правильность регионов? Как я могу подойти к этой проблеме?

Подробнее здесь: https://stackoverflow.com/questions/790 ... inary-file

1728320874

Anonymous

В настоящее время я использую скрипт Python, чтобы найти идеальную точку с количеством ненулевых значений (nnz) для разделения разреженного графа: (из этого ответа)
[code]def myhorsplit(
matrix: sparse.sparray, n_compute_units: int = 4,
) -> list[sparse.sparray]:
nnz = matrix.getnnz(axis=1).cumsum()
total = nnz[-1]
ideal_breaks = np.arange(0, total, total/n_compute_units)
break_idx = [*nnz.searchsorted(ideal_breaks), None]
return [
matrix[i: j, :]
for i, j in zip(break_idx[:-1], break_idx[1:])
]
def main() -> None:
rand = np.random.default_rng(seed=0)
# Create an 8x8 adjacency matrix with the modified element
adjacency_matrix = [
(1, 1, 1, 1, 0, 0, 0, 0),
(1, 0, 1, 0, 0, 0, 0, 0),
(1, 1, 0, 1, 0, 0, 0, 0),
(1, 0, 1, 0, 0, 0, 0, 0),
(0, 0, 1, 0, 0, 1, 0, 1),
(0, 0, 0, 0, 1, 0, 0, 0),
(0, 0, 0, 0, 1, 1, 0, 1),
(0, 0, 1, 0, 1, 0, 1, 0),
]
# csr_matrix = sparse.csr_array(adjacency_matrix)
csr_matrix = sparse.csr_array(
rand.integers(low=0, high=2, size=(10_000, 50), dtype=np.uint8)
)

partitions = myhorsplit(csr_matrix)

for i, partition in enumerate(partitions):
print(f"Partition {i}: {partition.nnz} ones, shape {partition.shape}")
# print(partition.toarray())
[/code]
Итак, пример кода разделен на 4 раздела:
[code]Partition 0: 4 ones, shape (1, 8)
[[1 1 1 1 0 0 0 0]]
Partition 1: 5 ones, shape (2, 8)
[[1 0 1 0 0 0 0 0]
[1 1 0 1 0 0 0 0]]
Partition 2: 6 ones, shape (3, 8)
[[1 0 1 0 0 0 0 0]
[0 0 1 0 0 1 0 1]
[0 0 0 0 1 0 0 0]]
Partition 3: 6 ones, shape (2, 8)
[[0 0 0 0 1 1 0 1]
[0 0 1 0 1 0 1 0]]
[/code]
В настоящее время я пытаюсь разделить график R-MAT с масштабом = 29 и краевым коэффициентом = 16, что составляет около 120 ГБ двоичного файла для чтения и преобразования в разреженный массив. Этот скрипт Python зависает с сообщением OOM Killed.
Мне было интересно, есть ли способ добиться такого разделения из двоичного файла (сгенерированного с помощью Graph500), прочитав файл только ?
Я подумал, что один из вариантов - найти оптимальную функцию, которая ранжирует все ребра в зависимости от их исходного узла, а затем разделяет их, что все равно сохранит правильность регионов? Как я могу подойти к этой проблеме? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79062568/partitioning-large-r-mat-graph-datasets-from-binary-file[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

У меня есть несколько вопросов относительно кнопки mat-icon, mat-icon и mat-menu.

Последнее сообщение Anonymous « 27 июн 2024, 18:40
Добавлено в форуме CSS

Anonymous » 27 июн 2024, 18:40 » в форуме CSS

Я хотел сделать с этим значком следующее:

Изменить цвет значка во время отображения меню
Сделайте меню другим цветом.
Отцентрируйте меню относительно значка.
Сделайте меню немного более отделенным от значка.
Сделайте меню немного более...

0 Ответы

61 Просмотры

Последнее сообщение Anonymous
27 июн 2024, 18:40
Перечислите все доступные имена наборов данных, содержащиеся в наборе данных наборов данных Hugginface.

Последнее сообщение Anonymous « 11 окт 2024, 19:56
Добавлено в форуме Python

Anonymous » 11 окт 2024, 19:56 » в форуме Python

Я хочу знать, какие наборы данных включены, например. эта коллекция наборов данных Huggingface:

m4_daily и weatherbench_daily упоминаются явно, но их должно быть больше .
Меня не интересует список всех таких коллекций.
Я получаю список через...

0 Ответы

36 Просмотры

Последнее сообщение Anonymous
11 окт 2024, 19:56
Как сделать 2 div под параметром mat для выравнивания по левому и правому краю в mat-autocomplete Angular 16

Последнее сообщение Anonymous « 27 сен 2023, 10:28
Добавлено в форуме CSS

Anonymous » 27 сен 2023, 10:28 » в форуме CSS

Я использую Angular Material mat-autocomplete, чтобы перечислить все поисковые предложения в раскрывающемся меню. Под каждой опцией mat есть два элемента div, первое выделенное значение div должно быть выровнено по левому краю, а номер второго...

0 Ответы

147 Просмотры

Последнее сообщение Anonymous
27 сен 2023, 10:28
Неопределенная ссылка на cv::Mat::Mat() в проекте с использованием C++, Qt, OpenCV

Последнее сообщение Anonymous « 24 июн 2024, 16:28
Добавлено в форуме C++

Anonymous » 24 июн 2024, 16:28 » в форуме C++

Я работаю над этой проблемой уже несколько дней, и ничего из того, что я искал в сети, похоже, не работает.
Я использую GT Creator и последние версии opencv и mingw
#include mainwindow.h
#include opencv2/highgui.hpp
#include
#include...

0 Ответы

31 Просмотры

Последнее сообщение Anonymous
24 июн 2024, 16:28
Почему мои угловые NGX-MAT-DateTime-Picker's и Mat-Datepicker Clash CSS, если они находятся на одной странице?

Последнее сообщение Anonymous « 29 янв 2025, 17:31
Добавлено в форуме CSS

Anonymous » 29 янв 2025, 17:31 » в форуме CSS

У меня есть два поля ввода в одной и той же форме друг под другом. Один из них-пикер ngx-mat-dateTime, а другой-это датчикер. up css.
код:

Schlusstag

Valuta

usecase 1:
Я открываю NGX-mat-datetime-picker Выберите дату, затем...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
29 янв 2025, 17:31

Вернуться в «Python»