Более эффективный способ создания нового столбца в кадре данных, который использует фильтрацию на основе строк, но избег

Более эффективный способ создания нового столбца в кадре данных, который использует фильтрацию на основе строк, но избег ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Более эффективный способ создания нового столбца в кадре данных, который использует фильтрацию на основе строк, но избег

Цитата

Сообщение Anonymous » 18 сен 2024, 07:36

У меня есть упрощенная функция, представленная ниже, но которую я использую для создания нового столбца в существующем фрейме данных. Прямо сейчас я использую iterrows, но я пробовал использовать .apply при фильтрации по уникальным группам «Год» и «Неделя» (нет, их нельзя преобразовать в даты по причинам), но это не сильно ускорило работу. Есть идеи по использованию векторизованных функций для более эффективного выполнения этой задачи?
Примеры версий:
input_df =

Год
< th>Неделя
Компания

2024
4
A

2023
18
А

2023
10
Б

< /tbody>

historical_df =

Год
Неделя
Компания
Объем

2024
2
А
43

2023
16
А
< td>32

2023
12
B
67

ЛОГИКА
Для каждой строки в input_df:
-Фильтровать исторический_df по годам, неделям и компаниям, чтобы расчет основывался только на исторических данных каждой компании. по году и неделе этой строки.
-Отсортируйте исторические данные, чтобы использовать .head() для извлечения данных за 16 последних недель (только до года и недели текущей строки).
-Используйте эти (до) 16-недельные данные об объеме для расчета коэффициента изменчивости (st.dev/mean)
-Сохраните это значение в списке
-Используйте список для создания нового столбца в input_df

Код: Выделить всё

def add_variability(input_df, historical_df):
variability_calcs = []

for index, row in input_df.iterrows():
filtered_historical_df = historical_df[
((historical_df['Year'] < row['Year']) |
((historical_df['Year'] == row['Year']) & (historical_df['Week'] < row['Week']))) &
(historical_df['Company'] == row['Company'])
]

filtered_historical_df = filtered_historical_df.sort_values(by=['Year', 'Week'], ascending=False)

recent_weeks = filtered_historical_df.head(16)

if recent_weeks.shape[0] > 1:
if recent_weeks['Volume'].mean() != 0:
cv = recent_weeks['Volume'].std() / recent_weeks['Volume'].mean()
else:
cv = None
else:
cv = None

variability_calcs.append(cv)

input_df['Variability'] = variability_calcs
return input_df

Вывод:
input_df =

Год
Неделя
Компания
Вариативность

2024
4
A
0,334

2023
18
А
0,242

2023
10
B
0,455

Подробнее здесь: https://stackoverflow.com/questions/789 ... ed-filteri

1726634175

Anonymous

У меня есть упрощенная функция, представленная ниже, но которую я использую для создания нового столбца в существующем фрейме данных. Прямо сейчас я использую iterrows, но я пробовал использовать .apply при фильтрации по уникальным группам «Год» и «Неделя» (нет, их нельзя преобразовать в даты по причинам), но это не сильно ускорило работу. Есть идеи по использованию векторизованных функций для более эффективного выполнения этой задачи?
Примеры версий:
input_df =



Год
< th>Неделя
Компания



2024
4
A


2023
18
А


2023
10
Б

< /tbody>

historical_df =



Год
Неделя
Компания 
Объем




2024
2
А
43


2023
16
А
< td>32


2023
12
B
67



ЛОГИКА
Для каждой строки в input_df:
-Фильтровать исторический_df по годам, неделям и компаниям, чтобы расчет основывался только на исторических данных каждой компании. по году и неделе этой строки.
-Отсортируйте исторические данные, чтобы использовать .head() для извлечения данных за 16 последних недель (только до года и недели текущей строки).
-Используйте эти (до) 16-недельные данные об объеме для расчета коэффициента изменчивости (st.dev/mean)
-Сохраните это значение в списке
-Используйте список для создания нового столбца в input_df 
[code]def add_variability(input_df, historical_df):
variability_calcs = []

for index, row in input_df.iterrows():
filtered_historical_df = historical_df[
((historical_df['Year'] < row['Year']) |
((historical_df['Year'] == row['Year']) & (historical_df['Week'] < row['Week']))) &
(historical_df['Company'] == row['Company'])
]

filtered_historical_df = filtered_historical_df.sort_values(by=['Year', 'Week'], ascending=False)

recent_weeks = filtered_historical_df.head(16)

if recent_weeks.shape[0] > 1:
if recent_weeks['Volume'].mean() != 0:
cv = recent_weeks['Volume'].std() / recent_weeks['Volume'].mean()
else:
cv = None
else:
cv = None

variability_calcs.append(cv)

input_df['Variability'] = variability_calcs
return input_df
[/code]
Вывод:
input_df =



Год
Неделя
Компания
Вариативность




2024
4
A
0,334


2023
18
А
0,242


2023
10
B
0,455


 

Подробнее здесь: [url]https://stackoverflow.com/questions/78996480/more-efficient-way-to-create-new-column-in-dataframe-that-uses-row-based-filteri[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Более эффективный способ создания нового столбца в кадре данных, который использует фильтрацию на основе строк, но избег

Последнее сообщение Anonymous « 18 сен 2024, 07:08
Добавлено в форуме Python

Anonymous » 18 сен 2024, 07:08 » в форуме Python

У меня есть упрощенная функция, представленная ниже, но которую я использую для создания нового столбца в существующем фрейме данных. Прямо сейчас я использую iterrows, но я пробовал использовать .apply при фильтрации по уникальным группам «Год» и...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
18 сен 2024, 07:08
Как сделать группировку, фильтрацию, фильтрацию, фильтрацию и круговую диаграмму с использованием цепных операций? [закр

Последнее сообщение Anonymous « 16 июл 2025, 15:17
Добавлено в форуме Python

Anonymous » 16 июл 2025, 15:17 » в форуме Python

Как я могу упростить код ниже и сделать его более эффективным с помощью цепных операций? В настоящее время я создаю промежуточные объекты и использую для loPb_Sales = df.groupby('Publisher')[ ].sum().sort_values('Global_Sales',ascending=False)
total...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
16 июл 2025, 15:17
Как сделать группировку, фильтрацию, фильтрацию, фильтрацию и круговую диаграмму с использованием цепных операций?

Последнее сообщение Anonymous « 18 июл 2025, 14:46
Добавлено в форуме Python

Anonymous » 18 июл 2025, 14:46 » в форуме Python

Как я могу упростить код ниже и сделать его более эффективным с помощью цепных операций? В настоящее время я создаю промежуточные объекты и использую для loPb_Sales = df.groupby('Publisher')[ ].sum().sort_values('Global_Sales',ascending=False)
total...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
18 июл 2025, 14:46
Можно ли установить фильтрацию столбца xlsxwriter на фильтрацию от a до z?

Последнее сообщение Anonymous « 16 мар 2024, 02:33
Добавлено в форуме Python

Anonymous » 16 мар 2024, 02:33 » в форуме Python

Можно ли отсортировать столбец в файле .xlsx с помощью модуля Python «xlsxwriter»?Вот пример кода:

import xlsxwriter

wb = xlsxwriter.Workbook('test.xlsx')
ws = wb.add_worksheet()

data = (
,
,
,
,
,

)
for row in range(len(data)):...

0 Ответы

34 Просмотры

Последнее сообщение Anonymous
16 мар 2024, 02:33
Найдите во всем втором кадре данных столбец A строк в первом кадре данных и заполните столбец B значением столбца A во в

Последнее сообщение Anonymous « 04 июл 2024, 23:40
Добавлено в форуме Python

Anonymous » 04 июл 2024, 23:40 » в форуме Python

Я вижу много похожих вопросов, но не совсем моя ситуация.
У меня есть два фрейма данных, каждый из которых содержит много-много столбцов. Очень упрощенное воспроизведение:
df1:
serial_num name
0 39jr93j Phyl
1 Gil
2 21pr12n Ann

df2:
serial_num...

0 Ответы

55 Просмотры

Последнее сообщение Anonymous
04 июл 2024, 23:40

Вернуться в «Python»