Самый быстрый способ вычисления подмножества корреляционной матрицы

Самый быстрый способ вычисления подмножества корреляционной матрицы ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Самый быстрый способ вычисления подмножества корреляционной матрицы

Цитата

Сообщение Anonymous » 29 окт 2023, 08:00

Я неравнодушен к использованию встроенного в pandas метода corr для кадров данных. Однако я пытаюсь вычислить корреляционную матрицу кадра данных с 45 000 столбцов. А затем повторите это 250 раз. Расчет давит на мою оперативку (16 ГБ, Mac Book Pro). Я собираю статистику по столбцам результирующей корреляционной матрицы. Поэтому мне нужна корреляция одного столбца с каждым другим столбцом, чтобы вычислить эту статистику. Мое решение — вычислить корреляцию подмножества столбцов с каждым другим столбцом, но мне нужен эффективный способ сделать это.

Учитывайте:

импортировать панд как pd импортировать numpy как np np.random.seed([3,1415]) df = pd.DataFrame(np.random.rand(6, 4), columns=list('ABCD')) дф

Я хочу вычислить корреляции только для ['A', 'B']

corrs = df.corr()[['A', 'B']] Коррс

Я закончу расчетом среднего значения или какой-нибудь другой статистики.

Я не могу использовать код, который использовал для создания примера, потому что при масштабировании у меня не хватает памяти для него. При выполнении расчета он должен использовать объем памяти, пропорциональный количеству столбцов, выбранных для расчета корреляций относительно всего остального.

Мне нужно наиболее эффективное решение в любом масштабе. У меня есть решение, но я ищу другие идеи, чтобы добиться лучшего результата. Любой предоставленный ответ, который возвращает правильный ответ, как показано в демонстрации, и удовлетворяет ограничению памяти, будет одобрен мной (и я также призываю голосовать за друг друга).

Ниже мой код:
def corr(df, k=0, l=10): d = df.values - df.values.mean(0) d_ = d[:, k:l] s = d.std(0, Keepdims=True) return pd.DataFrame(d.T.dot(d[:, k:l]) / s.T.dot(s[:, k:l]) / d.shape[0], df.columns, df.columns[k:l])

1698555608

Anonymous


Я неравнодушен к использованию встроенного в pandas метода corr для кадров данных. Однако я пытаюсь вычислить корреляционную матрицу кадра данных с 45 000 столбцов. А затем повторите это 250 раз. Расчет давит на мою оперативку (16 ГБ, Mac Book Pro). Я собираю статистику по столбцам результирующей корреляционной матрицы. Поэтому мне нужна корреляция одного столбца с каждым другим столбцом, чтобы вычислить эту статистику. Мое решение — вычислить корреляцию подмножества столбцов с каждым другим столбцом, но мне нужен эффективный способ сделать это.
 
Учитывайте:
 
импортировать панд как pd импортировать numpy как np np.random.seed([3,1415]) df = pd.DataFrame(np.random.rand(6, 4), columns=list('ABCD')) дф  
[img]https://i.stack.imgur.com/2wAgY.png[/img]

 
Я хочу вычислить корреляции только для ['A', 'B']
 
corrs = df.corr()[['A', 'B']] Коррс  
[img]https://i.stack.imgur.com/EkEVR.png[/img]

 
Я закончу расчетом среднего значения или какой-нибудь другой статистики.
 
Я не могу использовать код, который использовал для создания примера, потому что при масштабировании у меня не хватает памяти для него. При выполнении расчета он должен использовать объем памяти, пропорциональный количеству столбцов, выбранных для расчета корреляций относительно всего остального.
 
Мне нужно наиболее эффективное решение в любом масштабе. У меня есть решение, но я ищу другие идеи, чтобы добиться лучшего результата. Любой предоставленный ответ, который возвращает правильный ответ, как показано в демонстрации, и удовлетворяет ограничению памяти, будет одобрен мной (и я также призываю голосовать за друг друга).
 
Ниже мой код:
 def corr(df, k=0, l=10):     d = df.values - df.values.mean(0)     d_ = d[:, k:l]     s = d.std(0, Keepdims=True)     return pd.DataFrame(d.T.dot(d[:, k:l]) / s.T.dot(s[:, k:l]) / d.shape[0],                         df.columns, df.columns[k:l])

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Самый быстрый способ вычисления суммы квадратных элементов результата умножения матрицы?

Последнее сообщение Anonymous « 08 фев 2025, 22:57
Добавлено в форуме Python

Anonymous » 08 фев 2025, 22:57 » в форуме Python

Я хочу сделать что -то подобное в Python
sum(square(matmul(A, B)))

Есть различные способы достижения такого поведения, например,
sum(np.square(np.matmul(A, B)))

или
np.lingalg.norm(np.matmul(A, B)) ** 2

Я еще не профилировал его, но я...

0 Ответы

32 Просмотры

Последнее сообщение Anonymous
08 фев 2025, 22:57
Тепловая карта корреляционной матрицы

Последнее сообщение Anonymous « 04 июл 2024, 10:56
Добавлено в форуме Python

Anonymous » 04 июл 2024, 10:56 » в форуме Python

Я выполнил матрицу корреляции для четырех полевых кампаний, используя приведенный ниже код.
Однако я получил следующую ошибку:
NameError

~\AppData\Local\Temp\ipykernel_19684\903953116.py in

8 corr_Field1 = df_corr_Field1.corr()
10...

0 Ответы

44 Просмотры

Последнее сообщение Anonymous
04 июл 2024, 10:56
Создание кластеров с использованием корреляционной матрицы в Python

Последнее сообщение Anonymous « 14 ноя 2024, 18:08
Добавлено в форуме Python

Anonymous » 14 ноя 2024, 18:08 » в форуме Python

Итак, у меня есть корреляционная матрица 21 отрасли промышленности. Теперь я хочу разделить эти 21 сектор на 4 или 5 групп, при этом сектора со схожим поведением будут сгруппированы вместе.

Могут ли эксперты пролить свет на то, как это сделать в...

0 Ответы

33 Просмотры

Последнее сообщение Anonymous
14 ноя 2024, 18:08
Создание кластеров с использованием корреляционной матрицы в Python

Последнее сообщение Anonymous « 16 ноя 2024, 12:07
Добавлено в форуме Python

Anonymous » 16 ноя 2024, 12:07 » в форуме Python

Итак, у меня есть корреляционная матрица 21 отрасли промышленности. Теперь я хочу разделить эти 21 сектор на 4 или 5 групп, при этом сектора со схожим поведением будут сгруппированы вместе.

Могут ли эксперты пролить свет на то, как это сделать в...

0 Ответы

38 Просмотры

Последнее сообщение Anonymous
16 ноя 2024, 12:07
Создание кластеров с использованием корреляционной матрицы в Python

Последнее сообщение Anonymous « 16 ноя 2024, 12:25
Добавлено в форуме Python

Anonymous » 16 ноя 2024, 12:25 » в форуме Python

Итак, у меня есть корреляционная матрица 21 отрасли промышленности. Теперь я хочу разделить эти 21 сектор на 4 или 5 групп, при этом сектора со схожим поведением будут сгруппированы вместе.

Могут ли эксперты пролить свет на то, как это сделать в...

0 Ответы

24 Просмотры

Последнее сообщение Anonymous
16 ноя 2024, 12:25

Вернуться в «Python»