Оптимизация многокритериальных сравнений с большими кадрами данных в Python

Оптимизация многокритериальных сравнений с большими кадрами данных в Python ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Оптимизация многокритериальных сравнений с большими кадрами данных в Python

Цитата

Сообщение Anonymous » 22 сен 2024, 23:12

Я работаю над проектом, связанным с анализом спортивных результатов, где мне нужно сравнить строки DataFrame на основе нескольких критериев (возраст, результаты и дата). Для каждой строки мне нужно сравнить ее со всеми остальными и посчитать те, которые соответствуют определенным условиям (меньше или равно для каждого критерия).
Контекст:

DataFrame содержит десятки миллионов строк.
Мне нужно сравнить каждую строку с другими в нескольких столбцах: возраст, производительность и дата.
Для каждой строки я хочу подсчитать количество успешных сравнений.

Текущий подход:
Сейчас я использую Numpy и Pandas. Однако при добавлении нескольких критериев (возраст, производительность и дата) алгоритм становится слишком медленным и не подходит для многомерных сравнений.
Вот упрощенный пример мой текущий код:

Код: Выделить всё

import pandas as pd
import numpy as np

# Generate random data
def generate_dynamic_dataframe(n):
age = np.round(np.random.uniform(20, 50, n), 3)
performance = np.round(np.random.uniform(5, 25, n), 2)
dates = pd.to_datetime(np.random.randint(946684800, 1672531199, n), unit='s')
df = pd.DataFrame({'age': age, 'performance': performance, 'date': dates})
return df

# Example comparison with NumPy vectorization (too slow for multiple criteria)
def compare_rows_with_vectorization(df):
n = len(df)

# Convert columns to NumPy arrays
age_array = df['age'].to_numpy()
performance_array = df['performance'].to_numpy()
date_array = df['date'].astype('int64').to_numpy()  # Convert dates to int64

# Create comparison matrices
age_matrix = age_array[:, np.newaxis] 

Подробнее здесь: [url]https://stackoverflow.com/questions/79012529/optimizing-multi-criteria-comparisons-with-large-dataframes-in-python[/url]

1727035967

Anonymous

Я работаю над проектом, связанным с анализом спортивных результатов, где мне нужно сравнить строки DataFrame на основе нескольких критериев (возраст, результаты и дата). Для каждой строки мне нужно сравнить ее со всеми остальными и посчитать те, которые соответствуют определенным условиям (меньше или равно для каждого критерия).
[b]Контекст:[/b] 
[list]
[*]DataFrame содержит десятки миллионов строк.
[*]Мне нужно сравнить каждую строку с другими в нескольких столбцах: возраст, производительность и дата.
[*]Для каждой строки я хочу подсчитать количество успешных сравнений.
[/list]
[b]Текущий подход:[/b]
Сейчас я использую Numpy и Pandas. Однако при добавлении нескольких критериев (возраст, производительность и дата) алгоритм становится слишком медленным и не подходит для многомерных сравнений.
Вот упрощенный пример мой текущий код:
[code]import pandas as pd
import numpy as np

# Generate random data
def generate_dynamic_dataframe(n):
age = np.round(np.random.uniform(20, 50, n), 3)
performance = np.round(np.random.uniform(5, 25, n), 2)
dates = pd.to_datetime(np.random.randint(946684800, 1672531199, n), unit='s')
df = pd.DataFrame({'age': age, 'performance': performance, 'date': dates})
return df

# Example comparison with NumPy vectorization (too slow for multiple criteria)
def compare_rows_with_vectorization(df):
n = len(df)

# Convert columns to NumPy arrays
age_array = df['age'].to_numpy()
performance_array = df['performance'].to_numpy()
date_array = df['date'].astype('int64').to_numpy()  # Convert dates to int64

# Create comparison matrices
age_matrix = age_array[:, np.newaxis] 

Подробнее здесь: [url]https://stackoverflow.com/questions/79012529/optimizing-multi-criteria-comparisons-with-large-dataframes-in-python[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Оптимальный по производительности способ сериализации объектов Python с большими кадрами данных Pandas

Последнее сообщение Anonymous « 28 сен 2024, 18:16
Добавлено в форуме Python

Anonymous » 28 сен 2024, 18:16 » в форуме Python

Я имею дело с объектами Python, содержащими объекты Pandas DataFrame и Numpy Series. Они могут быть большими, в несколько миллионов строк.
Например:

@dataclass
class MyWorld:
# A lot of DataFrames with millions of rows
samples: pd.DataFrame...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
28 сен 2024, 18:16
Как я могу использовать многопроцесскую в Python для выполнения миллионов сравнений?

Последнее сообщение Anonymous « 02 мар 2025, 12:55
Добавлено в форуме Python

Anonymous » 02 мар 2025, 12:55 » в форуме Python

Моя цель - провести сравнение между двумя разными состояниями класса Rubiks Cube, которое само по себе просто. Проблема возникает, когда вам нужно вычислить что -то по порядку 900 миллионов сравнений, чтобы пройти все из них. Для справки, мы...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
02 мар 2025, 12:55
Как я могу использовать многопроцесскую в Python для выполнения миллионов сравнений?

Последнее сообщение Anonymous « 02 мар 2025, 16:03
Добавлено в форуме Python

Anonymous » 02 мар 2025, 16:03 » в форуме Python

Моя цель - провести сравнение между двумя разными состояниями класса Rubiks Cube, которое само по себе просто. Проблема возникает, когда вам нужно вычислить что -то по порядку 900 миллионов сравнений, чтобы пройти все из них. Для справки, мы...

0 Ответы

29 Просмотры

Последнее сообщение Anonymous
02 мар 2025, 16:03
Как наборы и наборы сравнений работают в Python?

Последнее сообщение Anonymous « 29 июл 2025, 00:21
Добавлено в форуме Python

Anonymous » 29 июл 2025, 00:21 » в форуме Python

Я изучаю Python, исходящий из некоторого опыта на уровне начинающих с Java. Все это имеет смысл по большей части, но одно из упражнений заставило меня задуматься, что на самом деле происходит в Python.
import string

def ispangram(str1,...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
29 июл 2025, 00:21
Как наборы и наборы сравнений работают в Python? [дублировать]

Последнее сообщение Anonymous « 29 июл 2025, 01:34
Добавлено в форуме Python

Anonymous » 29 июл 2025, 01:34 » в форуме Python

Я изучаю Python, исходящий из некоторого опыта на уровне начинающих с Java. Все это имеет смысл по большей части, но одно из упражнений заставило меня задуматься, что на самом деле происходит в Python.
import string

def ispangram(str1,...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
29 июл 2025, 01:34

Вернуться в «Python»