Удалить дубликаты без точного совпадения

Удалить дубликаты без точного совпадения ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Удалить дубликаты без точного совпадения

Цитата

Сообщение Anonymous » 10 мар 2024, 06:23

Мне нужно удалить дубликаты из моего фрейма данных, где соответствующие значения в столбцах A и C совпадают, и где соответствующие значения в столбцах B и C совпадают. Моя проблема заключается в том, что в столбце B есть нулевые значения, а некоторые «дубликаты» не совпадают. Столбец B содержит имена, которые для некоторых строк содержат только последнюю и первую, а для других строк — последнюю, первую, середину и степени. Любая строка с совпадающими фамилией и именем считается дубликатом.
Начальный фрейм данных:

Код: Выделить всё

d = {'A': [123498, 123498, 234875, 457898, 'SMITHJ', 'DOEJ',],
'B': ['SIMON, PAUL JD', None,  'DOE, JANE MARY PHD', 'MERCURY, FREDRICK MS', None, 'DOE, JANE'],
'C': ['red', 'red', 'green', 'red', 'blue', 'green']}
df = pd.DataFrame(data=d)
df

A            B                 C
0   123498   SIMON, PAUL JD         red
1   123498   None                   red
2   234875   DOE, JANE MARY PHD     green
3   457898   MERCURY, FREDRICK MS   red
4   SMITHJ   None                   blue
5   DOEJ     DOE, JANE              green

Final dataframe:

Код: Выделить всё

      A            B                 C
0   123498   SIMON, PAUL JD         red
3   457898   MERCURY, FREDRICK MS   red
4   SMITHJ   None                   blue
5   DOEJ     DOE, JANE              green

I used

Код: Выделить всё

df.drop_duplicate(['A', 'C'])

to remove duplicates from column A and a mask to remove the exact duplicates from column B, while keeping Null values.
Also, it doesn't matter which of the duplicate rows that I keep, so rows at index 0 and 5 could've been removed instead of the rows at index 1 and 2 and that would be acceptable.
Thank you!

Источник: https://stackoverflow.com/questions/781 ... xact-match

1710041032

Anonymous


Мне нужно удалить дубликаты из моего фрейма данных, где соответствующие значения в столбцах A и C совпадают, и где соответствующие значения в столбцах B и C совпадают. Моя проблема заключается в том, что в столбце B есть нулевые значения, а некоторые «дубликаты» не совпадают. Столбец B содержит имена, которые для некоторых строк содержат только последнюю и первую, а для других строк — последнюю, первую, середину и степени. Любая строка с совпадающими фамилией и именем считается дубликатом.
Начальный фрейм данных:
[code]d = {'A': [123498, 123498, 234875, 457898, 'SMITHJ', 'DOEJ',],
'B': ['SIMON, PAUL JD', None,  'DOE, JANE MARY PHD', 'MERCURY, FREDRICK MS', None, 'DOE, JANE'],
'C': ['red', 'red', 'green', 'red', 'blue', 'green']}
df = pd.DataFrame(data=d)
df

A            B                 C
0   123498   SIMON, PAUL JD         red
1   123498   None                   red
2   234875   DOE, JANE MARY PHD     green
3   457898   MERCURY, FREDRICK MS   red
4   SMITHJ   None                   blue
5   DOEJ     DOE, JANE              green
[/code]
Final dataframe:
[code]      A            B                 C
0   123498   SIMON, PAUL JD         red
3   457898   MERCURY, FREDRICK MS   red
4   SMITHJ   None                   blue
5   DOEJ     DOE, JANE              green
[/code]
I used [code]df.drop_duplicate(['A', 'C'])[/code] to remove duplicates from column A and a mask to remove the exact duplicates from column B, while keeping Null values.
Also, it doesn't matter which of the duplicate rows that I keep, so rows at index 0 and 5 could've been removed instead of the rows at index 1 and 2 and that would be acceptable.
Thank you!
 

Источник: [url]https://stackoverflow.com/questions/78134491/remove-duplicates-without-exact-match[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Метод бинарного анализа на массиве, отсортированный в порядке убывания без точного совпадения [дублировать]

Последнее сообщение Anonymous « 26 июн 2025, 15:04
Добавлено в форуме C#

Anonymous » 26 июн 2025, 15:04 » в форуме C#

Если у меня есть массив значений в порядке восходящего порядка и использую Array.binarySearch, то если востребованное значение фактически не существует, BinarySearch вернет индекс первого наивысшего значения в массиве (ну, на самом деле побитово его...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
26 июн 2025, 15:04
Jmespath Filter вложенные объекты на основе точного совпадения значения атрибута

Последнее сообщение Anonymous « 22 июл 2025, 01:22
Добавлено в форуме Python

Anonymous » 22 июл 2025, 01:22 » в форуме Python

Можно ли заставить выражение Jmespath для возврата групп и Group_elements на основе матча на Group_Name? Chatgpt либо не помогает, либо я слишком тупой, чтобы заставить его работать.
.changed_resource_value.group_elements...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
22 июл 2025, 01:22
Jmespath Filter вложенные объекты на основе точного совпадения значения атрибута

Последнее сообщение Anonymous « 22 июл 2025, 02:31
Добавлено в форуме Python

Anonymous » 22 июл 2025, 02:31 » в форуме Python

Можно ли получить выражение Jmespath для возврата групп и group_elements на основе соответствия на группе_name ? Class = Lang-None PrettyPrint-Override > .changed_resource_value.group_elements
.changed_resource_value.group_elements...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
22 июл 2025, 02:31
Мне нужно сравнить 2 CSV-файла с текстом более 300 000 и найти совпадения, а затем отобразить совпадения на экране. Лист

Последнее сообщение Anonymous « 31 окт 2024, 11:32
Добавлено в форуме JAVA

Anonymous » 31 окт 2024, 11:32 » в форуме JAVA

Я читаю два файла CSV со своего компьютера и заполняю этими данными массив. Затем я сравниваю эти два массивлиста, чтобы найти совпадения.
Если CSV-файлы содержат до 20 строк, то проблем с поиском совпадений и отображением не возникает, но когда...

0 Ответы

28 Просмотры

Последнее сообщение Anonymous
31 окт 2024, 11:32
PHP - Сравните два массива, и если есть дубликаты, удалите все совпадения [дублировать]

Последнее сообщение Anonymous « 10 фев 2025, 05:33
Добавлено в форуме Php

Anonymous » 10 фев 2025, 05:33 » в форуме Php

У меня есть два массива:

foo
bar
baz

и

foo
baz

Я хотел бы сравнить эти два массива, и если есть совпадения, удалить matches (не только дубликаты), так что я в конечном итоге массив, подобный этому:

bar

Я знаю, что массив 1 всегда...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
10 фев 2025, 05:33

Вернуться в «Python»