Я работаю над вопросом, где мне нужно обработать большой набор транзакций продаж, хранящихся в файле CSV, и обобщить результаты. Код работает медленнее, чем ожидалось, и его выполнение занимает слишком много времени, особенно по мере увеличения размера набора данных. Я использую pandas для загрузки и обработки данных. Могу ли я провести какую-либо оптимизацию, чтобы сократить время вычислений и ускорить получение результатов? Вот код, который я использую:
import pandas as pd
import numpy as np
# Sample dataset
n = 10**6 # million rows
np.random.seed(0)
transaction_ids = np.arange(1, n+1)
customer_ids = np.random.randint(100, 200, n)
sale_amounts = np.random.uniform(50, 500, n)
transaction_dates = pd.date_range('2023-01-01', periods=n, freq='T')
# DataFrame
df = pd.DataFrame({
'transaction_id': transaction_ids,
'customer_id': customer_ids,
'sale_amount': sale_amounts,
'transaction_date': transaction_dates
})
# Categorization function
def categorize_transaction(sale_amount):
if sale_amount > 400:
return 'High Value'
elif sale_amount > 200:
return 'Medium Value'
else:
return 'Low Value'
category_map = {
'High Value': (df['sale_amount'] > 400),
'Medium Value': (df['sale_amount'] > 200) & (df['sale_amount']
Подробнее здесь: https://stackoverflow.com/questions/793 ... es-dataset
Как оптимизировать код Python для анализа большого набора данных о продажах? ⇐ Python
Программы на Python
1735336051
Anonymous
Я работаю над вопросом, где мне нужно обработать большой набор транзакций продаж, хранящихся в файле CSV, и обобщить результаты. Код работает медленнее, чем ожидалось, и его выполнение занимает слишком много времени, особенно по мере увеличения размера набора данных. Я использую pandas для загрузки и обработки данных. Могу ли я провести какую-либо оптимизацию, чтобы сократить время вычислений и ускорить получение результатов? Вот код, который я использую:
import pandas as pd
import numpy as np
# Sample dataset
n = 10**6 # million rows
np.random.seed(0)
transaction_ids = np.arange(1, n+1)
customer_ids = np.random.randint(100, 200, n)
sale_amounts = np.random.uniform(50, 500, n)
transaction_dates = pd.date_range('2023-01-01', periods=n, freq='T')
# DataFrame
df = pd.DataFrame({
'transaction_id': transaction_ids,
'customer_id': customer_ids,
'sale_amount': sale_amounts,
'transaction_date': transaction_dates
})
# Categorization function
def categorize_transaction(sale_amount):
if sale_amount > 400:
return 'High Value'
elif sale_amount > 200:
return 'Medium Value'
else:
return 'Low Value'
category_map = {
'High Value': (df['sale_amount'] > 400),
'Medium Value': (df['sale_amount'] > 200) & (df['sale_amount']
Подробнее здесь: [url]https://stackoverflow.com/questions/79311978/how-can-i-optimize-python-code-for-analysis-of-a-large-sales-dataset[/url]
Ответить
1 сообщение
• Страница 1 из 1
Перейти
- Кемерово-IT
- ↳ Javascript
- ↳ C#
- ↳ JAVA
- ↳ Elasticsearch aggregation
- ↳ Python
- ↳ Php
- ↳ Android
- ↳ Html
- ↳ Jquery
- ↳ C++
- ↳ IOS
- ↳ CSS
- ↳ Excel
- ↳ Linux
- ↳ Apache
- ↳ MySql
- Детский мир
- Для души
- ↳ Музыкальные инструменты даром
- ↳ Печатная продукция даром
- Внешняя красота и здоровье
- ↳ Одежда и обувь для взрослых даром
- ↳ Товары для здоровья
- ↳ Физкультура и спорт
- Техника - даром!
- ↳ Автомобилистам
- ↳ Компьютерная техника
- ↳ Плиты: газовые и электрические
- ↳ Холодильники
- ↳ Стиральные машины
- ↳ Телевизоры
- ↳ Телефоны, смартфоны, плашеты
- ↳ Швейные машинки
- ↳ Прочая электроника и техника
- ↳ Фототехника
- Ремонт и интерьер
- ↳ Стройматериалы, инструмент
- ↳ Мебель и предметы интерьера даром
- ↳ Cантехника
- Другие темы
- ↳ Разное даром
- ↳ Давай меняться!
- ↳ Отдам\возьму за копеечку
- ↳ Работа и подработка в Кемерове
- ↳ Давай с тобой поговорим...
Мобильная версия