Поиск pandas по нескольким столбцам возвращает один столбец, если совпадает

Поиск pandas по нескольким столбцам возвращает один столбец, если совпадает ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Поиск pandas по нескольким столбцам возвращает один столбец, если совпадает

Цитата

Сообщение Anonymous » 24 сен 2024, 21:22

Пример данных:

Код: Выделить всё

df1 = pd.DataFrame({
'a': [1, 6, 3, 9],
'b': ['A', 'B', 'C', 'D'],
'c': [10, 20, 30, 40],
'd': [100, 200, 300, 400]
})

df2 = pd.DataFrame({
'm': [1, 5, 3, 7],
'n': [2, 6, 8, 4],
'o': [9, 10, 11, 12]
})

Требование:

Код: Выделить всё

df1['a']

может встречаться в любом месте df2. Я хочу вернуть df2['m'] независимо от того, где найдено совпадение.
После некоторого поиска в Google и чата я обнаружил плавление df2 и слияние с df1 полезен, за исключением того, что он не проверяет совпадение в df2['m'].
Код:< /p>

Код: Выделить всё

df2_melted = df2.melt(id_vars=['m'], value_vars=['n', 'o'])
merged_df = df1.merge(df2_melted, left_on='a', right_on='value', how='left')
df1['e'] = merged_df['m']
print(df1)

Выход:

Код: Выделить всё

a  b   c    d    e
1  A  10  100  NaN     # df1['a'] == df2['m']
6  B  20  200  5.0     # df1['a'] == df2['n']
3  C  30  300  NaN     # df1['a'] == df2['m']
9  D  40  400  1.0     # df1['a'] == df2['o']

Обязательный вывод:

Код: Выделить всё

a  b   c    d  e
1  A  10  100  1
6  B  20  200  5
3  C  30  300  3
9  D  40  400  1

Если бы df2['m'] можно было также добавить к value_vars во время плавления, это решило бы проблему. Я попробовал, не сработало. Затем проверил документацию и обнаружил, что все, что есть в id_vars, оставшееся или его подмножество может быть частью value_vars. Так что этот подход может быть неверным или я что-то упускаю.
Тогда я подумал, если df1['a'] соответствует df2['m'], тогда df1['e'] == df1['a'] == df2['m']. Поэтому простая замена значения NaN на df1['a'] должна сработать, и это сработало. Но пришлось преобразовать столбец в int; из-за NaN оно изменилось на плавающее.
Рабочий полный код:

Код: Выделить всё

df2_melted = df2.melt(id_vars=['m'], value_vars=['n', 'o'])
merged_df = df1.merge(df2_melted, left_on='a', right_on='value', how='left')
df1['e'] = merged_df['m']
df1['e'] = (df1['e'].fillna(df1['a'])).astype(int)

Казалось, что хотя это и рабочее решение, оно излишне сложное: «попробуйте любое решение: добавьте больше кода, чтобы исправить проблемы по мере продвижения, не меняя исходное решение».
Есть ли другой лучший подход, который может помочь с моим требованием?

PS1: В приведенном выше примере не обязательно, чтобы df1 и df2 будет иметь такое же количество строк.

Подробнее здесь: https://stackoverflow.com/questions/790 ... if-matches

1727202130

Anonymous

[b]Пример данных:[/b]
[code]df1 = pd.DataFrame({
'a': [1, 6, 3, 9],
'b': ['A', 'B', 'C', 'D'],
'c': [10, 20, 30, 40],
'd': [100, 200, 300, 400]
})

df2 = pd.DataFrame({
'm': [1, 5, 3, 7],
'n': [2, 6, 8, 4],
'o': [9, 10, 11, 12]
})
[/code]
[b]Требование:[/b]

[code]df1['a'][/code] может встречаться в любом месте df2. Я хочу вернуть df2['m'] независимо от того, где найдено совпадение.
После некоторого поиска в Google и чата я обнаружил плавление df2 и слияние с df1 полезен, за исключением того, что он не проверяет совпадение в df2['m'].
[b]Код:[/b]< /p>
[code]df2_melted = df2.melt(id_vars=['m'], value_vars=['n', 'o'])
merged_df = df1.merge(df2_melted, left_on='a', right_on='value', how='left')
df1['e'] = merged_df['m']
print(df1)
[/code]
[b]Выход:[/b]
[code]a  b   c    d    e
1  A  10  100  NaN     # df1['a'] == df2['m']
6  B  20  200  5.0     # df1['a'] == df2['n']
3  C  30  300  NaN     # df1['a'] == df2['m']
9  D  40  400  1.0     # df1['a'] == df2['o']
[/code]
[b]Обязательный вывод:[/b]
[code]a  b   c    d  e
1  A  10  100  1
6  B  20  200  5
3  C  30  300  3
9  D  40  400  1
[/code]
Если бы df2['m'] можно было также добавить к value_vars во время плавления, это решило бы проблему. Я попробовал, не сработало. Затем проверил документацию и обнаружил, что все, что есть в id_vars, оставшееся или его подмножество может быть частью value_vars. Так что этот подход может быть неверным или я что-то упускаю.
Тогда я подумал, если df1['a'] соответствует df2['m'], тогда df1['e'] == df1['a'] == df2['m']. Поэтому простая замена значения NaN на df1['a'] должна сработать, и это сработало. Но пришлось преобразовать столбец в int; из-за NaN оно изменилось на плавающее.
[b]Рабочий полный код:[/b]
[code]df2_melted = df2.melt(id_vars=['m'], value_vars=['n', 'o'])
merged_df = df1.merge(df2_melted, left_on='a', right_on='value', how='left')
df1['e'] = merged_df['m']
df1['e'] = (df1['e'].fillna(df1['a'])).astype(int)
[/code]
Казалось, что хотя это и рабочее решение, оно излишне сложное: «попробуйте любое решение: добавьте больше кода, чтобы исправить проблемы по мере продвижения, не меняя исходное решение».
Есть ли другой лучший подход, который может помочь с моим требованием?

PS1: В приведенном выше примере не обязательно, чтобы df1 и df2 будет иметь такое же количество строк. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79019861/pandas-search-across-multiple-columns-return-one-column-if-matches[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Группировать по столбцам и распределять значения по нескольким столбцам на основе значения [дубликат]

Последнее сообщение Anonymous « 12 ноя 2024, 18:49
Добавлено в форуме Python

Anonymous » 12 ноя 2024, 18:49 » в форуме Python

Я хочу выполнить операцию, при которой значения столбца распределяются по новым столбцам на основе тех же значений в другом столбце. См. пример ниже
import pandas as pd
pd.DataFrame({'A': , 'B': })

A B
0 a x1
1 a x2
2 b x3
3 b x4

Я хочу...

0 Ответы

30 Просмотры

Последнее сообщение Anonymous
12 ноя 2024, 18:49
Как применить функцию к нескольким столбцам в DataFrame Pandas за один раз

Последнее сообщение Anonymous « 18 фев 2025, 00:26
Добавлено в форуме Python

Anonymous » 18 фев 2025, 00:26 » в форуме Python

Я часто имею дело с данными, которые плохо отформатированы (то есть числовые поля не являются согласованными и т. Д.)

Могут быть и другие способы, о которых я не знаю, но Способ форматирования одного столбца в DataFrame - это использование функции...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
18 фев 2025, 00:26
Как выполнить поиск по нескольким столбцам в MySQL с частичным совпадением (?), Аналогично строке поиска?

Последнее сообщение Anonymous « 16 июл 2024, 18:20
Добавлено в форуме JAVA

Anonymous » 16 июл 2024, 18:20 » в форуме JAVA

Я пишу приложение командной строки Java для поиска книг в библиотеке и вывода пользователю местоположения книги. Книги хранятся в базе данных MySQL, и весь доступ осуществляется через приложение Java. Я хочу, чтобы пользователи могли выполнять поиск...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
16 июл 2024, 18:20
Pandas `.assign` нескольким столбцам из одной функции

Последнее сообщение Anonymous « 03 янв 2024, 09:38
Добавлено в форуме Python

Anonymous » 03 янв 2024, 09:38 » в форуме Python

У меня есть фрейм данных Pandas, который содержит один столбец val, а также функцию func, которая принимает значение и выдает список некоторой фиксированной длины ( скажем 4). У меня также есть список cols из 4 строк. Я хотел бы применить func к...

0 Ответы

95 Просмотры

Последнее сообщение Anonymous
03 янв 2024, 09:38
Доступ к нескольким столбцам в Pandas (PYTHON)

Последнее сообщение Anonymous « 29 ноя 2024, 07:33
Добавлено в форуме Python

Anonymous » 29 ноя 2024, 07:33 » в форуме Python

Мне дали файл для тренировки с пандами и задали такой вопрос:
Вопрос: Доступ к последним 10 строкам и первым двум столбцам индексного фрейма данных.
Итак, я попробовал этот код:
df = index[(index.tail(10)) & (index.iloc )]
df

но это выдало мне...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
29 ноя 2024, 07:33

Вернуться в «Python»