Проверка расхождений в подсчете от одной даты к другой в кадре данных

Проверка расхождений в подсчете от одной даты к другой в кадре данных ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Проверка расхождений в подсчете от одной даты к другой в кадре данных

Цитата

Сообщение Anonymous » 17 сен 2024, 06:59

Предположим, у меня есть эти данные

Код: Выделить всё

data = {'site': ['ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY'],
'usage_date': ['2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01'],
'item_id': ['COR30013', 'PAC10463', 'COR30018', 'PAC10958', 'PAC11188', 'PAC20467', 'COR20275', 'PAC20702', 'COR30020', 'PAC10137', 'PAC10445', 'COR30029', 'COR30025', 'PAC10457', 'COR10746', 'PAC11136', 'COR10346', 'PAC11050', 'PAC11132', 'PAC11135', 'PAC10964', 'COR10439', 'PAC11131', 'COR10695', 'PAC11128', 'COR10433', 'COR10432', 'PAC11051', 'PAC10137', 'COR10695', 'COR30029', 'COR10346', 'COR10432', 'COR10746', 'COR10439', 'COR10433', 'COR20275', 'COR30020', 'COR30018', 'PAC11135', 'PAC10964', 'PAC11136', 'PAC10445', 'PAC11050', 'PAC11132', 'PAC20467', 'PAC11188', 'PAC10463', 'PAC20702', 'PAC10457', 'PAC10958', 'PAC11051', 'PAC11128', 'PAC11131'],
'start_count':[400.0, 96000.0, 315.0, 45000.0, 2739.0, 2232.0, 2800.0, 283500.0, 280.0, 200000.0, 96000.0, 481.0, 600.0, 18000.0, 400.0, 5500.0, 1200.0, 5850.0, 5500.0, 5500.0, 36000.0, 600.0, 5500.0, 550.0, 300.0, 4800.0, 1800.0, 1800.0, 108000.0, 500.0, 481.0, 1200.0, 1800.0, 400.0, 600.0, 3300.0, 2800.0, 455.0, 315.0, 5500.0, 36000.0, 5500.0, 96000.0, 5400.0, 5500.0, 2232.0, 2739.0, 96000.0, 283500.0, 18000.0, 72000.0, 1800.0, 300.0, 5500.0],
'received_total': [0.0, 0.0, 0.0, 0.0, 3168.0, 0.0, 0.0, 0.0, 280.0, 0.0, 0.0, 0.0, 0.0, 0.0, 400.0, 0.0, 1800.0, 0.0, 0.0, 0.0, 0.0, 400.0, 0.0, 0.0, 0.0, 0.0, 0.0, 3600.0, 0.0, 0.0, 0.0, 1800.0, 2400.0, 400.0, 400.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1800.0, 0.0, 0.0, 3168.0, 0.0, 0.0, 0.0, 45000.0, 3600.0, 0.0, 0.0],
'end_count': [240.0, 84000.0, 280.0, 27000.0, 3432.0, 2160.0, 2000.0, 90000.0, 455.0, 108000.0, 96000.0, 437.0, 500.0, 9000.0, 600.0, 5500.0, 1950.0, 4950.0, 5500.0, 5500.0, 36000.0, 600.0, 5500.0, 550.0, 270.0, 3300.0, 1200.0, 4200.0, 192000.0, 450.0, 350.0, 1890.0, 3600.0, 600.0, 525.0, 2835.0, 1600.0, 420.0, 187.0, 5500.0, 36000.0, 5500.0, 96000.0, 6750.0, 5500.0, 1992.0, 1881.0, 84000.0, 58500.0, 9000.0, 85500.0, 3300.0, 252.0, 5500.0]}

df_sample = pd.DataFrame(data=data)

Для каждого item_id нам нужно проверить, больше ли текущий (01.09.2019) end_count, чем предыдущий (25.08.2019) end_count и у нас есть текущий полученный_общий объем, равный 0, что означает неправильный подсчет.
У меня есть этот код, который работает

Код: Выделить всё

def check_end_count(df):
l = []
for loc, df_loc in df.groupby(['site', 'item_id']):
try:
ending_count_previous = df_loc['end_count'].iloc[0]
ending_count_current = df_loc['end_count'].iloc[1]
received_total_current = df_loc['received_total'].iloc[1]

if ending_count_current > ending_count_previous and received_total_current == 0:
l.append("Ending count discrepancy")
l.append("Ending count discrepancy")
else:
l.append("Good Row")
l.append("Good Row")
except:
l.append("Nothing to compare")

df['ending_count_check'] = l
return df

df_sample = check_end_count(df_sample)

Но это не так уж и питонично. Кроме того, в моем случае мне нужно проверить ряд дат, из которых у меня есть этот список кортежей

Код: Выделить всё

print(sliding_window_dates[:3])

[array(['2019-08-25', '2019-09-01'], dtype=object),
array(['2019-09-01', '2019-09-08'], dtype=object),
array(['2019-09-08', '2019-09-15'], dtype=object)]

Итак, я пытаюсь сделать следующее в более крупном кадре данных:

Код: Выделить всё

df_list = []
for date1, date2 in sliding_window_dates:
df_check = df_test[(df_test['usage_date'] == date1) | (df_test['usage_date'] == date2)]
for loc, df_loc in df_check.groupby(['sort_center', 'item_id']):
df_list.append(check_end_count(df_loc))

Но я снова делаю это в двух циклах for, поэтому предполагаю, что должен быть лучший способ сделать это. Любые предложения приветствуются.

Подробнее здесь: https://stackoverflow.com/questions/789 ... -dataframe

1726545572

Anonymous

Предположим, у меня есть эти данные
[code]data = {'site': ['ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY', 'ACY'],
'usage_date': ['2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-08-25', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01', '2019-09-01'],
'item_id': ['COR30013', 'PAC10463', 'COR30018', 'PAC10958', 'PAC11188', 'PAC20467', 'COR20275', 'PAC20702', 'COR30020', 'PAC10137', 'PAC10445', 'COR30029', 'COR30025', 'PAC10457', 'COR10746', 'PAC11136', 'COR10346', 'PAC11050', 'PAC11132', 'PAC11135', 'PAC10964', 'COR10439', 'PAC11131', 'COR10695', 'PAC11128', 'COR10433', 'COR10432', 'PAC11051', 'PAC10137', 'COR10695', 'COR30029', 'COR10346', 'COR10432', 'COR10746', 'COR10439', 'COR10433', 'COR20275', 'COR30020', 'COR30018', 'PAC11135', 'PAC10964', 'PAC11136', 'PAC10445', 'PAC11050', 'PAC11132', 'PAC20467', 'PAC11188', 'PAC10463', 'PAC20702', 'PAC10457', 'PAC10958', 'PAC11051', 'PAC11128', 'PAC11131'],
'start_count':[400.0, 96000.0, 315.0, 45000.0, 2739.0, 2232.0, 2800.0, 283500.0, 280.0, 200000.0, 96000.0, 481.0, 600.0, 18000.0, 400.0, 5500.0, 1200.0, 5850.0, 5500.0, 5500.0, 36000.0, 600.0, 5500.0, 550.0, 300.0, 4800.0, 1800.0, 1800.0, 108000.0, 500.0, 481.0, 1200.0, 1800.0, 400.0, 600.0, 3300.0, 2800.0, 455.0, 315.0, 5500.0, 36000.0, 5500.0, 96000.0, 5400.0, 5500.0, 2232.0, 2739.0, 96000.0, 283500.0, 18000.0, 72000.0, 1800.0, 300.0, 5500.0],
'received_total': [0.0, 0.0, 0.0, 0.0, 3168.0, 0.0, 0.0, 0.0, 280.0, 0.0, 0.0, 0.0, 0.0, 0.0, 400.0, 0.0, 1800.0, 0.0, 0.0, 0.0, 0.0, 400.0, 0.0, 0.0, 0.0, 0.0, 0.0, 3600.0, 0.0, 0.0, 0.0, 1800.0, 2400.0, 400.0, 400.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1800.0, 0.0, 0.0, 3168.0, 0.0, 0.0, 0.0, 45000.0, 3600.0, 0.0, 0.0],
'end_count': [240.0, 84000.0, 280.0, 27000.0, 3432.0, 2160.0, 2000.0, 90000.0, 455.0, 108000.0, 96000.0, 437.0, 500.0, 9000.0, 600.0, 5500.0, 1950.0, 4950.0, 5500.0, 5500.0, 36000.0, 600.0, 5500.0, 550.0, 270.0, 3300.0, 1200.0, 4200.0, 192000.0, 450.0, 350.0, 1890.0, 3600.0, 600.0, 525.0, 2835.0, 1600.0, 420.0, 187.0, 5500.0, 36000.0, 5500.0, 96000.0, 6750.0, 5500.0, 1992.0, 1881.0, 84000.0, 58500.0, 9000.0, 85500.0, 3300.0, 252.0, 5500.0]}

df_sample = pd.DataFrame(data=data)
[/code]
Для каждого item_id нам нужно проверить, больше ли текущий (01.09.2019) end_count, чем предыдущий (25.08.2019) end_count  и у нас есть текущий полученный_общий объем, равный 0, что означает неправильный подсчет.
У меня есть этот код, который работает
[code]def check_end_count(df):
l = []
for loc, df_loc in df.groupby(['site', 'item_id']):
try:
ending_count_previous = df_loc['end_count'].iloc[0]
ending_count_current = df_loc['end_count'].iloc[1]
received_total_current = df_loc['received_total'].iloc[1]

if ending_count_current > ending_count_previous and received_total_current == 0:
l.append("Ending count discrepancy")
l.append("Ending count discrepancy")
else:
l.append("Good Row")
l.append("Good Row")
except:
l.append("Nothing to compare")

df['ending_count_check'] = l
return df

df_sample = check_end_count(df_sample)
[/code]
Но это не так уж и питонично.  Кроме того, в моем случае мне нужно проверить ряд дат, из которых у меня есть этот список кортежей
[code]print(sliding_window_dates[:3])

[array(['2019-08-25', '2019-09-01'], dtype=object),
array(['2019-09-01', '2019-09-08'], dtype=object),
array(['2019-09-08', '2019-09-15'], dtype=object)]
[/code]
Итак, я пытаюсь сделать следующее в более крупном кадре данных:
[code]df_list = []
for date1, date2 in sliding_window_dates:
df_check = df_test[(df_test['usage_date'] == date1) | (df_test['usage_date'] == date2)]
for loc, df_loc in df_check.groupby(['sort_center', 'item_id']):
df_list.append(check_end_count(df_loc))
[/code]
Но я снова делаю это в двух циклах for, поэтому предполагаю, что должен быть лучший способ сделать это. Любые предложения приветствуются. 

Подробнее здесь: [url]https://stackoverflow.com/questions/78991877/checking-count-discrepancies-from-one-date-to-another-in-dataframe[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Проверка расхождений в подсчете от одной даты к другой в кадре данных

Последнее сообщение Anonymous « 17 сен 2024, 00:35
Добавлено в форуме Python

Anonymous » 17 сен 2024, 00:35 » в форуме Python

Предположим, у меня есть эти данные
data = {'site': ,
'usage_date': ,
'item_id': ,
'start_count': ,
'received_total': ,
'end_count': }

df_sample = pd.DataFrame(data=data)

Для каждого item_id нам нужно проверить, больше ли текущий (01.09.2019)...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
17 сен 2024, 00:35
Проверка расхождений в подсчете от одной даты к другой в кадре данных

Последнее сообщение Anonymous « 18 сен 2024, 10:23
Добавлено в форуме Python

Anonymous » 18 сен 2024, 10:23 » в форуме Python

Предположим, у меня есть эти данные
data = {'site': ,
'usage_date': ,
'item_id': ,
'start_count': ,
'received_total': ,
'end_count': }

df_sample = pd.DataFrame(data=data)

Для каждого item_id нам нужно проверить, больше ли текущий (01.09.2019)...

0 Ответы

24 Просмотры

Последнее сообщение Anonymous
18 сен 2024, 10:23
Усреднение значений в другом кадре данных до даты в первом кадре данных

Последнее сообщение Anonymous « 06 ноя 2023, 17:55
Добавлено в форуме Python

Anonymous » 06 ноя 2023, 17:55 » в форуме Python

Я признаю, что это довольно конкретный пример. У меня есть два фрейма данных: в первом есть дата и группа:

Группа дат 11.06.2023 А 11.05.2023 Б 11.04.2023 А 11.03.2023 А 11.02.2023 Б Во втором есть даты, группы и значения:

Значение группы дат...

0 Ответы

126 Просмотры

Последнее сообщение Anonymous
06 ноя 2023, 17:55
Понимание расхождений в выходных данных платформы модульного тестирования Microsoft

Последнее сообщение Anonymous « 26 апр 2024, 08:13
Добавлено в форуме C++

Anonymous » 26 апр 2024, 08:13 » в форуме C++

MS Visual Studio 17.9.5, C++, MS Unit Testing Framework
Когда я начал изучать MS UTF, я успешно написал несколько простых тестов для пары своих занятия. Решение строится и работает правильно. Тесты также проходят как положено. Однако у меня есть...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
26 апр 2024, 08:13
В кадре данных замените значения из одного столбца с несколькими условиями, а не в одной строке, в другой столбец.

Последнее сообщение Anonymous « 26 июл 2024, 21:07
Добавлено в форуме Python

Anonymous » 26 июл 2024, 21:07 » в форуме Python

Я пытаюсь перенести значения из одного столбца в другой столбец в кадре данных с несколькими условиями и не в одной строке.
Значения из столбцов «BEGUZ_H» и « ENDUZ_H» в столбцы «BEGUZ» и «ENDUZ» ,
если значения в столбцах «PERNR_H», «WORKDATE_H»,...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
26 июл 2024, 21:07

Вернуться в «Python»