Вычислить среднее значение значений в списке, сгруппированном по меткам

Вычислить среднее значение значений в списке, сгруппированном по меткам ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Вычислить среднее значение значений в списке, сгруппированном по меткам

Цитата

Сообщение Anonymous » 18 окт 2024, 19:00

У меня возникла проблема с эффективностью при попытке решить следующую задачу в программе Python: предположим, у нас есть список огромных_списков, содержащий такие кортежи: (label1, label2, numeric_value) Где label* — это просто строки, которые используются, чтобы узнать, что означает числовое_значение в контексте моей программы. В обычном приложении программы этот список может содержать до 10 миллионов элементов. Я хочу вычислить, учитывая фиксированную строку x, среднее значение значений «numerical_value», содержащихся в списке, так что соответствующий кортеж label2 равен x. Очевидная идея состоит в том, чтобы просто создать генератор списка, который фильтрует кортежи, соответствующие условию, а затем вычисляет среднее значение по этому сокращенному списку:interest_values = [значение для _, label2, dist в огромных_списке, если label2==x] среднее = np. mean(interesting_values)
Но поскольку список огромен, выполнение этой операции занимает слишком много времени. Более того, моей программе удобно хранить эти значения таким образом, поскольку мне нужно их упорядочить и, следовательно, создать другую структуру, например словарь:

Код: Выделить всё

values_dict[label2][label1] = numerical_value

Это вызовет больше проблем в других частях программы. Я также хочу, если это возможно, избегать создания обеих структур данных. Другая возможность, которую я рассматривал, заключается в том, что в той части программы, где вычисляются эти числовые значения, это будет означать их вычисление с фиксацией каждой метки2, вычисление среднего значения на данный момент и его сохранение, но это потребует большого изменения в программе. , и особенно в способе его распараллеливания (исправление label1 для каждого процесса, поскольку ожидается, что набор значений label2 будет гораздо большего порядка, чем label1, и если сделать это наоборот, это сделает его намного медленнее.) Есть ли альтернативный способ эффективного вычисления этого значения с помощью списка огромных_списков, или мне следует поискать другой способ хранения значений? Я думал об использовании фреймов данных pandas, поскольку они позволили бы мне упорядочить значения, а также вычислить среднее значение, но я не уверен, повысит ли это эффективность. Я также обнаружил библиотеку cuDF в ходе быстрого поиска, который я сделал, чтобы увидеть, могут ли графические процессоры позволить мне каким-либо образом распараллеливать вещи, но я также не уверен, поможет ли это, поскольку мы не говорим об операциях между кадрами данных, а о вычислениях внутри самого фрейма данных.
Я ожидал, что описанное выше понимание списка эффективно решит мою проблему, но, поскольку это не так, я хочу найти способ сделать это в более эффективный способ без изменения моей структуры данных из-за того, как эти значения рассчитываются моей программой.

Подробнее здесь: https://stackoverflow.com/questions/791 ... -by-labels

1729267258

Anonymous

У меня возникла проблема с эффективностью при попытке решить следующую задачу в программе Python: предположим, у нас есть список огромных_списков, содержащий такие кортежи: (label1, label2, numeric_value) Где label* — это просто строки, которые используются, чтобы узнать, что означает числовое_значение в контексте моей программы. В обычном приложении программы этот список может содержать до 10 миллионов элементов. Я хочу вычислить, учитывая фиксированную строку x, среднее значение значений «numerical_value», содержащихся в списке, так что соответствующий кортеж label2 равен x. Очевидная идея состоит в том, чтобы просто создать генератор списка, который фильтрует кортежи, соответствующие условию, а затем вычисляет среднее значение по этому сокращенному списку:interest_values = [значение для _, label2, dist в огромных_списке, если label2==x] среднее = np. mean(interesting_values)
Но поскольку список огромен, выполнение этой операции занимает слишком много времени. Более того, моей программе удобно хранить эти значения таким образом, поскольку мне нужно их упорядочить и, следовательно, создать другую структуру, например словарь:
[code]values_dict[label2][label1] = numerical_value
[/code]
Это вызовет больше проблем в других частях программы. Я также хочу, если это возможно, избегать создания обеих структур данных. Другая возможность, которую я рассматривал, заключается в том, что в той части программы, где вычисляются эти числовые значения, это будет означать их вычисление с фиксацией каждой метки2, вычисление среднего значения на данный момент и его сохранение, но это потребует большого изменения в программе. , и особенно в способе его распараллеливания (исправление label1 для каждого процесса, поскольку ожидается, что набор значений label2 будет гораздо большего порядка, чем label1, и если сделать это наоборот, это сделает его намного медленнее.) Есть ли альтернативный способ эффективного вычисления этого значения с помощью списка огромных_списков, или мне следует поискать другой способ хранения значений? Я думал об использовании фреймов данных pandas, поскольку они позволили бы мне упорядочить значения, а также вычислить среднее значение, но я не уверен, повысит ли это эффективность. Я также обнаружил библиотеку cuDF в ходе быстрого поиска, который я сделал, чтобы увидеть, могут ли графические процессоры позволить мне каким-либо образом распараллеливать вещи, но я также не уверен, поможет ли это, поскольку мы не говорим об операциях между кадрами данных, а о вычислениях внутри самого фрейма данных.
Я ожидал, что описанное выше понимание списка эффективно решит мою проблему, но, поскольку это не так, я хочу найти способ сделать это в более эффективный способ без изменения моей структуры данных из-за того, как эти значения рассчитываются моей программой. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79102701/calculate-the-mean-of-values-in-a-list-grouped-by-labels[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

В программе... A, B и C. Вам нужно вывести среднее из этих трех чисел. Среднее значение N чисел представляет собой сумму

Последнее сообщение Гость « 19 сен 2023, 21:28
Добавлено в форуме JAVA

Гость » 19 сен 2023, 21:28 » в форуме JAVA

import java.util.*; общественный класс JavaBasics { public static void main(String agrs[]) { Сканер sc = новый сканер(System.in); int a = sc.nextInt(); int b = sc.nextInt(); int c = sc.nextInt(); int avg = а + б + с/3; System.out.println(avg); } }

0 Ответы

163 Просмотры

Последнее сообщение Гость
19 сен 2023, 21:28
Подсчитать количество строк в сгруппированном столбце в Pandas

Последнее сообщение Anonymous « 15 окт 2024, 02:45
Добавлено в форуме Python

Anonymous » 15 окт 2024, 02:45 » в форуме Python

У меня есть простой набор данных, и я пытаюсь сгруппировать столбец по его значениям и создать новый столбец, содержащий количество строк, возвращаемых для этой группы.
Я пробовал несколько варианты, но ничего не работает.
Простой (не работающий)...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
15 окт 2024, 02:45
Найти пересечение дат в сгруппированном полярном фрейме данных

Последнее сообщение Anonymous « 28 окт 2024, 13:04
Добавлено в форуме Python

Anonymous » 28 окт 2024, 13:04 » в форуме Python

Рассмотрим следующий `pl.DataFrame``:
import polars as pl

data = {
symbol : * 5 + * 3 + * 4,
date : ,
}

df = pl.DataFrame(data)

with pl.Config(tbl_rows=-1):
print(df)

shape: (12, 2)
┌────────┬────────────┐
│ symbol ┆ date │
│ --- ┆ --- │
│ str...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
28 окт 2024, 13:04
Найти пересечение дат в сгруппированном полярном фрейме данных

Последнее сообщение Anonymous « 28 окт 2024, 14:31
Добавлено в форуме Python

Anonymous » 28 окт 2024, 14:31 » в форуме Python

Рассмотрим следующий pl.DataFrame:
import polars as pl

data = {
symbol : * 5 + * 3 + * 4,
date : ,
}

df = pl.DataFrame(data)

with pl.Config(tbl_rows=-1):
print(df)

shape: (12, 2)
┌────────┬────────────┐
│ symbol ┆ date │
│ --- ┆ --- │
│ str ┆...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
28 окт 2024, 14:31
Как изменить цвет в сгруппированном графике стержня

Последнее сообщение Anonymous « 18 июл 2025, 12:18
Добавлено в форуме Python

Anonymous » 18 июл 2025, 12:18 » в форуме Python

import plotly.express as px
import pandas as pd

data_media_pH = pd.DataFrame([ , , ], index= )

fig_media_pH = px.bar(data_media_pH, barmode= group , color_discrete_sequence= *3)

# Adjust layout

fig_media_pH = fig_media_pH.update_layout(...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
18 июл 2025, 12:18

Вернуться в «Python»