Улучшение производительности Pandas и векторизации в больших наборах данных

Улучшение производительности Pandas и векторизации в больших наборах данных ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Улучшение производительности Pandas и векторизации в больших наборах данных

Цитата

Сообщение Anonymous » 16 сен 2024, 19:57

КОНТЕКСТ
У меня есть большой набор данных (100–250 МБ) в CSV-файле, и мне нужно распределить группы по совокупности людей. Группировки основаны на динамическом наборе правил, определенном в другом файле CSV. Для простоты воспроизведения я добавил образцы данных и образцы «наборов правил»/строки запросов
ДАННЫЕ

Код: Выделить всё

 # Data looks like this:
ID    Gender    Age     Country
1     Male      60      USA
2     Female    25      UK
3     Male      30      Australia

ТЕКУЩИЙ КОД

Код: Выделить всё

import pandas as pd
import numpy as np

query1 = '(Gender in ["Male","Female"]) & (Country=="USA")'
query2 = '(Country in ["USA", "UK"]) & (Gender=="Male")'
query3 = '(Age > 40) & (Gender=="Male")'

query_list = [query1, query2, query3]
query_names = ['USA', 'MALE_USA_UK', 'MALE_OVER_40']

def assign_name(row, id_list, name, column_list):
id = row['ID']
if name in column_list:
if row[name] == 'Yes':
return 'Yes'
if str(id) in id_list:
return 'Yes'
return 'No'

# Create a dataframe with random data
data = {
'ID': range(1, 101),
'Gender': ['Male', 'Female'] * 50,
'Age': np.random.randint(18, 70, size=100),
'Country': ['USA', 'Canada', 'UK', 'Australia'] * 25
}

df = pd.DataFrame(data)
df = pd.DataFrame(data)
tmp = df.copy()

for query in query_list:
name = query_names[query_list.index(query)]
out = tmp.query(query)

# Create a list of people that were derived in out.  These are 'yes'
person_list = out['ID'].to_list()
column_list = out.columns.to_list()

# Give them a 'Yes' or 'No' based on them being in the 'out' df
df[name] = df.apply(
lambda row: assign_name(row, person_list, name, column_list), axis = 1)

ПРОБЛЕМА
При больших наборах данных с более чем 200 тысячами строк и более чем 50 различными классификационными группами этот процесс занимает много времени. бегать. Я часто получаю ошибку DataFrame — сильно фрагментированная ошибка в .insert. Мне нужна помощь в создании более быстрого и эффективного решения.

Подробнее здесь: https://stackoverflow.com/questions/789 ... ge-dataset

1726505853

Anonymous

[b]КОНТЕКСТ[/b]
У меня есть большой набор данных (100–250 МБ) в CSV-файле, и мне нужно распределить группы по совокупности людей.  Группировки основаны на динамическом наборе правил, определенном в другом файле CSV.  Для простоты воспроизведения я добавил образцы данных и образцы «наборов правил»/строки запросов
[b]ДАННЫЕ[/b]
[code] # Data looks like this:
ID    Gender    Age     Country
1     Male      60      USA
2     Female    25      UK
3     Male      30      Australia
[/code]
[b]ТЕКУЩИЙ КОД[/b]
[code]import pandas as pd
import numpy as np

query1 = '(Gender in ["Male","Female"]) & (Country=="USA")'
query2 = '(Country in ["USA", "UK"]) & (Gender=="Male")'
query3 = '(Age > 40) & (Gender=="Male")'

query_list = [query1, query2, query3]
query_names = ['USA', 'MALE_USA_UK', 'MALE_OVER_40']

def assign_name(row, id_list, name, column_list):
id = row['ID']
if name in column_list:
if row[name] == 'Yes':
return 'Yes'
if str(id) in id_list:
return 'Yes'
return 'No'

# Create a dataframe with random data
data = {
'ID': range(1, 101),
'Gender': ['Male', 'Female'] * 50,
'Age': np.random.randint(18, 70, size=100),
'Country': ['USA', 'Canada', 'UK', 'Australia'] * 25
}

df = pd.DataFrame(data)
df = pd.DataFrame(data)
tmp = df.copy()

for query in query_list:
name = query_names[query_list.index(query)]
out = tmp.query(query)

# Create a list of people that were derived in out.  These are 'yes'
person_list = out['ID'].to_list()
column_list = out.columns.to_list()

# Give them a 'Yes' or 'No' based on them being in the 'out' df
df[name] = df.apply(
lambda row: assign_name(row, person_list, name, column_list), axis = 1)
[/code]
[b]ПРОБЛЕМА[/b]
При больших наборах данных с более чем 200 тысячами строк и более чем 50 различными классификационными группами этот процесс занимает много времени. бегать.  Я часто получаю ошибку DataFrame — сильно фрагментированная ошибка в .insert.  Мне нужна помощь в создании более быстрого и эффективного решения. 

Подробнее здесь: [url]https://stackoverflow.com/questions/78990852/improve-pandas-and-vectorization-performance-on-large-dataset[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Улучшение производительности Pandas и векторизации в больших наборах данных

Последнее сообщение Anonymous « 16 сен 2024, 18:47
Добавлено в форуме Python

Anonymous » 16 сен 2024, 18:47 » в форуме Python

КОНТЕКСТ
У меня есть большой набор данных (100–250 МБ) в CSV-файле, и мне нужно распределить группы по совокупности людей. Группировки основаны на динамическом наборе правил, определенном в другом файле CSV. Для простоты воспроизведения я добавил...

0 Ответы

32 Просмотры

Последнее сообщение Anonymous
16 сен 2024, 18:47
Оптимизация производительности логистической регрессии GridSearchCV на больших наборах данных в sklearn

Последнее сообщение Anonymous « 03 авг 2024, 13:02
Добавлено в форуме Python

Anonymous » 03 авг 2024, 13:02 » в форуме Python

У меня возникла серьезная проблема с производительностью при использовании нескольких распространенных методов машинного обучения в sklearn. Я работаю над проблемой двоичной классификации с набором данных, содержащим 5 миллионов наблюдений и 100...

0 Ответы

31 Просмотры

Последнее сообщение Anonymous
03 авг 2024, 13:02
Вопросы об обучении LLM на больших наборах текстовых данных для генерации текста с нуля

Последнее сообщение Anonymous « 09 мар 2024, 15:42
Добавлено в форуме Python

Anonymous » 09 мар 2024, 15:42 » в форуме Python

I made a fully custom made GPT in Jax (with Keras 3), using Tensorflow for the data pipeline.
I've trained the model on the Shakespeare dataset and got good results (so no problem with the model).
Now I want to train it on the Tiny-Stories dataset...

0 Ответы

31 Просмотры

Последнее сообщение Anonymous
09 мар 2024, 15:42
Ошибка преобразования координат широты и долготы в названия городов в больших наборах данных

Последнее сообщение Anonymous « 24 окт 2024, 21:15
Добавлено в форуме Python

Anonymous » 24 окт 2024, 21:15 » в форуме Python

Я хочу преобразовать широту и долготу в город с большим набором данных.
Я использую следующий код:
import numpy as np
import geopy
import time

def get_city_with_retry(df, geolocator, lat_field, lon_field, retries=3, delay=1):
for _ in...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
24 окт 2024, 21:15
Как я могу оптимизировать обнаружение волн Эллиотта в больших наборах данных о криптовалютах?

Последнее сообщение Anonymous « 28 дек 2024, 20:21
Добавлено в форуме Python

Anonymous » 28 дек 2024, 20:21 » в форуме Python

Я работаю над программой на Python, которая определяет паттерны волн Эллиотта в данных рынка криптовалют. Текущая реализация использует вложенные циклы и исчерпывающий поиск, что делает ее вычислительно дорогостоящей для больших наборов данных.
Вот...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
28 дек 2024, 20:21

Вернуться в «Python»