Как я могу быстро сгенерировать (большой) список случайных чисел, учитывая список начальных чисел в качестве входных дан

Как я могу быстро сгенерировать (большой) список случайных чисел, учитывая список начальных чисел в качестве входных дан ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как я могу быстро сгенерировать (большой) список случайных чисел, учитывая список начальных чисел в качестве входных дан

Цитата

Сообщение Anonymous » 27 сен 2024, 15:06

Мне нужно создать функцию, которая принимает массив целых чисел и возвращает список случайных чисел той же длины, что и массив. Однако существует ограничение: выходное случайное число, соответствующее данной записи во входном массиве, всегда должно быть одинаковым в зависимости от этой записи.
Например, если input_a приведенный ниже возвращает следующее:

Код: Выделить всё

> input_a = np.array([1, 2, 3, 4, 5])
> random_array(input_a)
[0.51689016 0.62747792 0.16585436 0.63928942 0.30514275]

Тогда input_b, указанный ниже, должен вернуть следующее:

Код: Выделить всё

> input_b = np.array([3, 2, 3])
> random_array(input_b)
[0.16585436 0.62747792 0.16585436]

Обратите внимание, что выходные числа, соответствующие входному значению 3, одинаковы, как и те, которые соответствуют входному значению 2. По сути, значения входного массива равны используется в качестве начального числа для выходного массива.
Основная проблема заключается в том, что входные массивы могут быть очень большими, поэтому мне нужно что-то, что может эффективно выполнять эту операцию.Моя наивная реализация заключается в следующем: я создаю список генераторов случайных чисел с входным массивом в качестве начального числа.

Код: Выделить всё

import numpy as np

def random_array(input_array):
rng_list = [np.random.default_rng(seed=i) for i in input_array]
return [rng.random() for rng in rng_list]

input_a = np.array([1, 2, 3])
input_b = np.array([3, 2, 3])

print(random_array(input_a)) # [0.5118216247002567, 0.2616121342493164, 0.08564916714362436]
print(random_array(input_b)) # [0.08564916714362436, 0.2616121342493164, 0.08564916714362436]

Он работает так, как задумано, но ужасно медленно для того, что мне нужно, что неудивительно, учитывая, что он выполняет цикл над записями массива. Эта реализация занимает около 5 секунд для работы с входным массивом длиной 100 000, и мне нужно будет сделать это для гораздо больших входных данных.
Как я могу это сделать, но не только эффективно?
Измените, чтобы добавить информацию: типичная длина входного массива составляет около 200 миллионов. Диапазон его значений может значительно превышать его длину — np.max(input_a) может исчисляться триллионами — но все его значения можно считать неотрицательными. Количество повторяющихся значений невелико по сравнению с длиной массива.
Что я конкретно пытаюсь сделать, так это взять набор частиц из результатов моделирования (всего около 200 миллиардов частиц) и создать меньший набор частиц, случайно выбранных («с пониженной дискретизацией») из большого набора (выходные данные с пониженной дискретизацией должны содержать около 1% от общего числа частиц). Каждая частица помечена идентификатором, который неотрицательен, но может быть очень большим. Результаты моделирования разбиваются на дюжину или около того «снимков», каждый из которых хранит положение каждой частицы (помимо прочего); каждый снимок разделен на «подснимки», отдельные файлы, в которых хранятся идентификаторы/позиции и т. д. около 200 миллионов частиц каждая. Идентификаторы частиц в снимке уникальны, но одна и та же частица (с одним и тем же идентификатором) естественным образом появится в нескольких снимках.
Я пытаюсь создать маску, которая будет решать следует ли сохранять частицу или нет, в зависимости от ее идентификатора. Идея состоит в том, что если частица сохраняется в одном снимке, она должна сохраняться и во всех снимках. Оперативная память не бесконечна; Одновременно можно загрузить только один субснимок информации о частицах. Частицы в N-м подснимке данного снимка такие же, как частицы в N-м подснимке другого снимка, но не обязательно в том же порядке. Файлы поиска в принципе можно сохранять и читать, но, опять же, за раз можно использовать только один субснимок (и это медленно, поэтому, если есть лучший способ, это было бы идеально).
Это Это мотивация создания функции, которая присваивает значение ГСЧ многим частицам одновременно (значение ГСЧ используется для определения, будет ли частица сохранена или нет), которая основана на входном массиве (массив идентификаторов частиц) и согласуется с ним. , чтобы гарантировать, что если частица сохраняется, то она всегда сохраняется).

Подробнее здесь: https://stackoverflow.com/questions/790 ... st-of-seed

1727438810

Anonymous

Мне нужно создать функцию, которая принимает массив целых чисел и возвращает список случайных чисел той же длины, что и массив. Однако существует ограничение: выходное случайное число, соответствующее данной записи во входном массиве, всегда должно быть одинаковым в зависимости от этой записи.
Например, если input_a приведенный ниже возвращает следующее:
[code]> input_a = np.array([1, 2, 3, 4, 5])
> random_array(input_a)
[0.51689016 0.62747792 0.16585436 0.63928942 0.30514275]
[/code]
Тогда input_b, указанный ниже, должен вернуть следующее:
[code]> input_b = np.array([3, 2, 3])
> random_array(input_b)
[0.16585436 0.62747792 0.16585436]
[/code]
Обратите внимание, что выходные числа, соответствующие входному значению 3, одинаковы, как и те, которые соответствуют входному значению 2. По сути, значения входного массива равны используется в качестве начального числа для выходного массива.
Основная проблема заключается в том, что входные массивы могут быть очень большими, поэтому мне нужно что-то, что может эффективно выполнять эту операцию.Моя наивная реализация заключается в следующем: я создаю список генераторов случайных чисел с входным массивом в качестве начального числа.
[code]import numpy as np

def random_array(input_array):
rng_list = [np.random.default_rng(seed=i) for i in input_array]
return [rng.random() for rng in rng_list]

input_a = np.array([1, 2, 3])
input_b = np.array([3, 2, 3])

print(random_array(input_a)) # [0.5118216247002567, 0.2616121342493164, 0.08564916714362436]
print(random_array(input_b)) # [0.08564916714362436, 0.2616121342493164, 0.08564916714362436]
[/code]
Он работает так, как задумано, но ужасно медленно для того, что мне нужно, что неудивительно, учитывая, что он выполняет цикл над записями массива. Эта реализация занимает около 5 секунд для работы с входным массивом длиной 100 000, и мне нужно будет сделать это для гораздо больших входных данных.
Как я могу это сделать, но не только эффективно?
Измените, чтобы добавить информацию: типичная длина входного массива составляет около 200 миллионов. Диапазон его значений может значительно превышать его длину — np.max(input_a) может исчисляться триллионами — но все его значения можно считать неотрицательными. Количество повторяющихся значений невелико по сравнению с длиной массива.
Что я конкретно пытаюсь сделать, так это взять набор частиц из результатов моделирования (всего около 200 миллиардов частиц) и создать меньший набор частиц, случайно выбранных («с пониженной дискретизацией») из большого набора (выходные данные с пониженной дискретизацией должны содержать около 1% от общего числа частиц). Каждая частица помечена идентификатором, который неотрицательен, но может быть очень большим. Результаты моделирования разбиваются на дюжину или около того «снимков», каждый из которых хранит положение каждой частицы (помимо прочего); каждый снимок разделен на «подснимки», отдельные файлы, в которых хранятся идентификаторы/позиции и т. д. около 200 миллионов частиц каждая. Идентификаторы частиц в снимке уникальны, но одна и та же частица (с одним и тем же идентификатором) естественным образом появится в нескольких снимках.
Я пытаюсь создать маску, которая будет решать следует ли сохранять частицу или нет, в зависимости от ее идентификатора. Идея состоит в том, что если частица сохраняется в одном снимке, она должна сохраняться и во всех снимках. Оперативная память не бесконечна; Одновременно можно загрузить только один субснимок информации о частицах. Частицы в N-м подснимке данного снимка такие же, как частицы в N-м подснимке другого снимка, но не обязательно в том же порядке. Файлы поиска в принципе можно сохранять и читать, но, опять же, за раз можно использовать только один субснимок (и это медленно, поэтому, если есть лучший способ, это было бы идеально).
Это Это мотивация создания функции, которая присваивает значение ГСЧ многим частицам одновременно (значение ГСЧ используется для определения, будет ли частица сохранена или нет), которая основана на входном массиве (массив идентификаторов частиц) и согласуется с ним. , чтобы гарантировать, что если частица сохраняется, то она всегда сохраняется). 

Подробнее здесь: [url]https://stackoverflow.com/questions/79028509/how-can-i-quickly-generate-a-large-list-of-random-numbers-given-a-list-of-seed[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как я могу быстро сгенерировать (большой) список случайных чисел, учитывая список начальных чисел в качестве входных дан

Последнее сообщение Anonymous « 26 сен 2024, 20:27
Добавлено в форуме Python

Anonymous » 26 сен 2024, 20:27 » в форуме Python

Мне нужно создать функцию, которая принимает массив целых чисел и возвращает список случайных чисел той же длины, что и массив. Однако существует ограничение: выходное случайное число, соответствующее данной записи во входном массиве, всегда должно...

0 Ответы

33 Просмотры

Последнее сообщение Anonymous
26 сен 2024, 20:27
Как я могу быстро сгенерировать (большой) список случайных чисел, учитывая список начальных чисел в качестве входных дан

Последнее сообщение Anonymous « 26 сен 2024, 22:15
Добавлено в форуме Python

Anonymous » 26 сен 2024, 22:15 » в форуме Python

Мне нужно создать функцию, которая принимает массив целых чисел и возвращает список случайных чисел той же длины, что и массив. Однако существует ограничение: выходное случайное число, соответствующее данной записи во входном массиве, всегда должно...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
26 сен 2024, 22:15
Как я могу быстро сгенерировать (большой) список случайных чисел, учитывая список начальных чисел в качестве входных дан

Последнее сообщение Anonymous « 27 сен 2024, 13:45
Добавлено в форуме Python

Anonymous » 27 сен 2024, 13:45 » в форуме Python

Мне нужно создать функцию, которая принимает массив целых чисел и возвращает список случайных чисел той же длины, что и массив. Однако существует ограничение: выходное случайное число, соответствующее данной записи во входном массиве, всегда должно...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
27 сен 2024, 13:45
Как я могу быстро сгенерировать (большой) список случайных чисел, учитывая список начальных чисел в качестве входных дан

Последнее сообщение Anonymous « 27 сен 2024, 17:44
Добавлено в форуме Python

Anonymous » 27 сен 2024, 17:44 » в форуме Python

Мне нужно создать функцию, которая принимает массив целых чисел и возвращает список случайных чисел той же длины, что и массив. Однако существует ограничение: выходное случайное число, соответствующее данной записи во входном массиве, всегда должно...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
27 сен 2024, 17:44
Как я могу исправить эту ошибку: ValueError: X имеет 1 функцию, но MinMaxScaler ожидает 4 функции в качестве входных дан

Последнее сообщение Anonymous « 06 дек 2024, 12:12
Добавлено в форуме Python

Anonymous » 06 дек 2024, 12:12 » в форуме Python

Я новичок в программировании и в настоящее время работаю над заданием по прогнозированию цен на золото. Я застрял на последней части кода, особенно на той части, которая прогнозирует цену золота на следующий день, и которая показывает ошибку,...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
06 дек 2024, 12:12

Вернуться в «Python»