Как по-настоящему сравнить два кадра данных на основе ключевого столбца? - Цифровое Кемерово

Как по-настоящему сравнить два кадра данных на основе ключевого столбца? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как по-настоящему сравнить два кадра данных на основе ключевого столбца?

Цитата

Сообщение Anonymous » 12 окт 2024, 10:50

Мои входные данные — это два фрейма данных:

Код: Выделить всё

import pandas as pd

df_having = pd.DataFrame({'ID': ['ID_01', 'ID_01', 'ID_01', 'ID_01', 'ID_02', 'ID_03', 'ID_03', 'ID_05', 'ID_06', 'ID_06'], 'NAME': ['A', 'A', 'A', 'A', 'E', 'B', 'B', 'E', 'A', 'A'], 'TYPE': ['A', 'A', 'B', 'A', 'C', 'A', 'B', 'F', 'A', 'A'], 'CATEGORY': [1, 1, 3, 3, 3, 1, 2, 1, 1, 1]})
df_tohave = pd.DataFrame({'ID': ['ID_01', 'ID_01', 'ID_02', 'ID_02', 'ID_03', 'ID_03', 'ID_03', 'ID_04', 'ID_05'], 'NAME': ['A', 'A', 'A', 'A', 'B', 'B', 'E', 'A', 'D'], 'TYPE': ['A', 'B', 'C', 'C', 'A', 'A', 'B', 'D', 'G'], 'CATEGORY': [1, 2, 1, 2, 1, 2, 3, 3, 2]})

Я пытаюсь выполнить сравнение на основе столбца «ID», чтобы в итоге получить третий кадр данных (в самом правом углу изображения ниже):

Код: Выделить всё

df_having

отражает реальную ситуацию в системе, а df_tohave — это то, что должно быть.
Флаг может иметь следующие значения:

NO_ACTION: «ID» имеет правильные «NAME», «TYPE» и «CATEGORY» в df_having
< li>TO_CREATE: идентификатор отсутствует в df_having и существует в df_tohave
TO_UPDATE: идентификатор существует в df_having, но в хотя бы одно из полей «NAME», «TYPE» и «CATEGORY» неверно.
TO_DELETE: «ID» существует в df_having, а не в df_tohave

ПОЛЯ — это просто поля, на которые указывает ФЛАГ.
Когда создавая кадр данных сравнения, если флаг «TO_DELETE», мы извлекаем строку из df_having, в противном случае мы получаем ее из df_tohave.
Я попробовал, но результирующий фрейм данных содержит 34 строки, хотя должно быть 13, и большинство флагов неверны.

Код: Выделить всё

import functools

cols = ['NAME', 'TYPE', 'CATEGORY']
df_diff = functools.reduce(lambda left, right: pd.merge(left, right, on='ID', how='outer', suffixes=('_having', '_tohave')),
[df_having[['ID'] + cols], df_tohave[['ID'] + cols]])

for col in cols:
df_diff[f'{col}_diff'] = df_diff[f'{col}_having'] != df_diff[f'{col}_tohave']

df_diff['FIELDS'] = df_diff[[f'{col}_diff' for col in cols]].dot(pd.Index(cols) + ' & ').str.strip(' & ')
df_diff = df_diff[df_diff['FIELDS'] != ''].assign(FLAG='TO_UPDATE')

df_comparison = pd.concat([merged, df_diff[['ID', 'NAME_tohave', 'TYPE_tohave', 'CATEGORY_tohave', 'FLAG', 'FIELDS']].rename(columns={
'NAME_tohave': 'NAME', 'TYPE_tohave': 'TYPE', 'CATEGORY_tohave': 'CATEGORY'})]).drop(columns='_merge').reset_index(drop=True)

Ребята, вы знаете, что я делаю не так? Или у вас есть предложение по решению этой проблемы?

Подробнее здесь: https://stackoverflow.com/questions/790 ... key-column

Реклама

1728719455

Anonymous

Мои входные данные — это два фрейма данных:
[code]import pandas as pd

df_having = pd.DataFrame({'ID': ['ID_01', 'ID_01', 'ID_01', 'ID_01', 'ID_02', 'ID_03', 'ID_03', 'ID_05', 'ID_06', 'ID_06'], 'NAME': ['A', 'A', 'A', 'A', 'E', 'B', 'B', 'E', 'A', 'A'], 'TYPE': ['A', 'A', 'B', 'A', 'C', 'A', 'B', 'F', 'A', 'A'], 'CATEGORY': [1, 1, 3, 3, 3, 1, 2, 1, 1, 1]})
df_tohave = pd.DataFrame({'ID': ['ID_01', 'ID_01', 'ID_02', 'ID_02', 'ID_03', 'ID_03', 'ID_03', 'ID_04', 'ID_05'], 'NAME': ['A', 'A', 'A', 'A', 'B', 'B', 'E', 'A', 'D'], 'TYPE': ['A', 'B', 'C', 'C', 'A', 'A', 'B', 'D', 'G'], 'CATEGORY': [1, 2, 1, 2, 1, 2, 3, 3, 2]})
[/code]
Я пытаюсь выполнить сравнение на основе столбца «ID», чтобы в итоге получить третий кадр данных (в самом правом углу изображения ниже):
[img]https://i.sstatic.net/6HXaUGNB.png[/img]

[code]df_having[/code] отражает реальную ситуацию в системе, а df_tohave — это то, что должно быть.
Флаг может иметь следующие значения:
[list]
[*]NO_ACTION: «ID» имеет правильные «NAME», «TYPE» и «CATEGORY» в df_having
< li>TO_CREATE: идентификатор отсутствует в df_having и существует в df_tohave
[*]TO_UPDATE: идентификатор существует в df_having, но в хотя бы одно из полей «NAME», «TYPE» и «CATEGORY» неверно.
[*]TO_DELETE: «ID» существует в df_having, а не в df_tohave
[/list]
ПОЛЯ — это просто поля, на которые указывает ФЛАГ.
Когда создавая кадр данных сравнения, если флаг «TO_DELETE», мы извлекаем строку из df_having, в противном случае мы получаем ее из df_tohave.
Я попробовал, но результирующий фрейм данных содержит 34 строки, хотя должно быть 13, и большинство флагов неверны.
[code]import functools

cols = ['NAME', 'TYPE', 'CATEGORY']
df_diff = functools.reduce(lambda left, right: pd.merge(left, right, on='ID', how='outer', suffixes=('_having', '_tohave')),
[df_having[['ID'] + cols], df_tohave[['ID'] + cols]])

for col in cols:
df_diff[f'{col}_diff'] = df_diff[f'{col}_having'] != df_diff[f'{col}_tohave']

df_diff['FIELDS'] = df_diff[[f'{col}_diff' for col in cols]].dot(pd.Index(cols) + ' & ').str.strip(' & ')
df_diff = df_diff[df_diff['FIELDS'] != ''].assign(FLAG='TO_UPDATE')

df_comparison = pd.concat([merged, df_diff[['ID', 'NAME_tohave', 'TYPE_tohave', 'CATEGORY_tohave', 'FLAG', 'FIELDS']].rename(columns={
'NAME_tohave': 'NAME', 'TYPE_tohave': 'TYPE', 'CATEGORY_tohave': 'CATEGORY'})]).drop(columns='_merge').reset_index(drop=True)
[/code]
Ребята, вы знаете, что я делаю не так? Или у вас есть предложение по решению этой проблемы? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79080448/how-to-truly-compare-two-dataframes-based-on-a-key-column[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как по-настоящему сравнить два кадра данных на основе ключевого столбца?

Последнее сообщение Anonymous « 12 окт 2024, 11:23
Добавлено в форуме Python

Anonymous » 12 окт 2024, 11:23 » в форуме Python

Мои входные данные — это два фрейма данных:
import pandas as pd

df_having = pd.DataFrame({'ID': , 'NAME': , 'TYPE': , 'CATEGORY': })
df_tohave = pd.DataFrame({'ID': , 'NAME': , 'TYPE': , 'CATEGORY': })

Я пытаюсь выполнить сравнение на основе...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
12 окт 2024, 11:23
Pandas сопоставляет два кадра данных на основе имени столбца, упомянутого в другом df, и частичного совпадения для получ

Последнее сообщение Anonymous « 14 май 2024, 05:34
Добавлено в форуме Python

Anonymous » 14 май 2024, 05:34 » в форуме Python

У меня есть два кадра данных df1 и df2, как показано ниже.
import pandas as pd

data1 = {'Column1': ,
'Column2': ,
'Column3': }

df1 = pd.DataFrame(data1)

data2 = {'ColumnName': ,
'ifExist': ,
'TarName': }
df2 = pd.DataFrame(data2)

Я хочу добавить...

0 Ответы

34 Просмотры

Последнее сообщение Anonymous
14 май 2024, 05:34
Pandas сопоставляет два кадра данных на основе имени столбца, упомянутого в другом df, и частичного совпадения для получ

Последнее сообщение Anonymous « 14 май 2024, 10:35
Добавлено в форуме Python

Anonymous » 14 май 2024, 10:35 » в форуме Python

У меня есть два кадра данных df1 и df2, как показано ниже.
import pandas as pd

data1 = {'Column1': ,
'Column2': ,
'Column3': }

df1 = pd.DataFrame(data1)

data2 = {'ColumnName': ,
'ifExist': ,
'TarName': }
df2 = pd.DataFrame(data2)

Я хочу добавить...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
14 май 2024, 10:35
Как наиболее эффективно сравнить два столбца DataFrame и соответствовать аналогичным строкам на основе функции?

Последнее сообщение Anonymous « 06 авг 2025, 12:41
Добавлено в форуме Python

Anonymous » 06 авг 2025, 12:41 » в форуме Python

Предполагая, что у нас есть два фрейма, каждый из которых содержал столбец несколько похожих значений на основе строк. Какой наиболее эффективный и/или эффективный способ сопоставить строки с аналогичными столбцами, основанный на функции...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
06 авг 2025, 12:41
Как наиболее эффективно сравнить два столбца DataFrame и соответствовать аналогичным строкам на основе функции?

Последнее сообщение Anonymous « 06 авг 2025, 12:41
Добавлено в форуме Python

Anonymous » 06 авг 2025, 12:41 » в форуме Python

Предполагая, что у нас есть два фрейма, каждый из которых содержал столбец несколько похожих значений на основе строк. Какой наиболее эффективный и/или эффективный способ сопоставить строки с аналогичными столбцами, основанный на функции...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
06 авг 2025, 12:41

Вернуться в «Python»

Programmiererforum