Как наиболее эффективно сравнить два столбца DataFrame и соответствовать аналогичным строкам на основе функции? - Цифровое Кемерово

Как наиболее эффективно сравнить два столбца DataFrame и соответствовать аналогичным строкам на основе функции? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как наиболее эффективно сравнить два столбца DataFrame и соответствовать аналогичным строкам на основе функции?

Цитата

Сообщение Anonymous » 06 авг 2025, 12:41

Предполагая, что у нас есть два фрейма, каждый из которых содержал столбец несколько похожих значений на основе строк. Какой наиболее эффективный и/или эффективный способ сопоставить строки с аналогичными столбцами, основанный на функции сравнения-например, реализация TextDistance Jaro-Winkler?
Пример DataFrames:
first_df = pd.DataFrame( ['Cars and cats', 'Spaceship', 'Captain Marvel', 'Dune','Bucks in 6'], columns=['Title'])

second_df = pd.DataFrame( ['Captain Harlock', 'Cats and dogs', 'Buccuneers', 'Dune buggy','Milwaukee Bucks'], columns=['Title'])
< /code>
Что я думаю: < /p>

Создание картезианского продукта на основе каждого столбца DataFrame < /li>
Применить функцию сравнения и сохранить результат в новой колонке. Давайте назовем это сходство_SCORE < /li>
Сортировка нового рамы данных по наилучшему значению (в зависимости от алгоритма) < /li>
Отбросьте дубликаты столбца, в основном мы заинтересованы < /li>
< /ul>
Реализация: < /p>

< /ul>
: < /p>

< /ul>
: < /p>
< /ul>
.comparison_df = first_df.merge(second_df, how='cross')

comparison_df['similarity_score'] = comparison_df.apply(lambda row: textdistance.jaro_winkler.normalized_similarity(row['First DataFrame Titles'], row['Second DataFrame Titles']), axis=1)
display(comparison_df)

comparison_df = comparison_df.sort_values('similarity_score', ascending=False).drop_duplicates(subset=['First DataFrame Titles'], keep='first')
< /code>
Любые предложения приветствуются. Заранее спасибо.

Подробнее здесь: https://stackoverflow.com/questions/677 ... ch-the-sim

Реклама

1754473268

Anonymous

 Предполагая, что у нас есть два фрейма, каждый из которых содержал столбец несколько похожих значений на основе строк. Какой наиболее эффективный и/или эффективный способ сопоставить строки с аналогичными столбцами, основанный на функции сравнения-например, реализация TextDistance Jaro-Winkler? 
Пример DataFrames: 
first_df = pd.DataFrame( ['Cars and cats', 'Spaceship', 'Captain Marvel', 'Dune','Bucks in 6'], columns=['Title'])

second_df = pd.DataFrame( ['Captain Harlock', 'Cats and dogs', 'Buccuneers', 'Dune buggy','Milwaukee Bucks'], columns=['Title'])
< /code>
Что я думаю: < /p>

 Создание картезианского продукта на основе каждого столбца DataFrame < /li>
 Применить функцию сравнения и сохранить результат в новой колонке. Давайте назовем это сходство_SCORE < /li>
 Сортировка нового рамы данных по наилучшему значению (в зависимости от алгоритма) < /li>
 Отбросьте дубликаты столбца, в основном мы заинтересованы < /li>
< /ul>
Реализация: < /p>

< /ul>
: < /p>

< /ul>
: < /p>
< /ul>
.comparison_df = first_df.merge(second_df, how='cross')

comparison_df['similarity_score'] = comparison_df.apply(lambda row: textdistance.jaro_winkler.normalized_similarity(row['First DataFrame Titles'], row['Second DataFrame Titles']), axis=1)
display(comparison_df)

comparison_df = comparison_df.sort_values('similarity_score', ascending=False).drop_duplicates(subset=['First DataFrame Titles'], keep='first')
< /code>
Любые предложения приветствуются. Заранее спасибо.  

Подробнее здесь: [url]https://stackoverflow.com/questions/67786464/what-is-the-most-efficient-way-to-compare-to-dataframe-columns-and-match-the-sim[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как наиболее эффективно сравнить два столбца DataFrame и соответствовать аналогичным строкам на основе функции?

Последнее сообщение Anonymous « 06 авг 2025, 12:41
Добавлено в форуме Python

Anonymous » 06 авг 2025, 12:41 » в форуме Python

Предполагая, что у нас есть два фрейма, каждый из которых содержал столбец несколько похожих значений на основе строк. Какой наиболее эффективный и/или эффективный способ сопоставить строки с аналогичными столбцами, основанный на функции...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
06 авг 2025, 12:41
Как наиболее эффективно сравнить два столбца DataFrame и соответствовать аналогичным строкам на основе функции?

Последнее сообщение Anonymous « 11 авг 2025, 20:36
Добавлено в форуме Python

Anonymous » 11 авг 2025, 20:36 » в форуме Python

Предполагая, что у нас есть два фрейма, каждый из которых содержал столбец несколько похожих значений на основе строк. Какой наиболее эффективный и/или эффективный способ сопоставить строки с аналогичными столбцами, основанный на функции...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
11 авг 2025, 20:36
Как по-настоящему сравнить два кадра данных на основе ключевого столбца?

Последнее сообщение Anonymous « 12 окт 2024, 10:50
Добавлено в форуме Python

Anonymous » 12 окт 2024, 10:50 » в форуме Python

Мои входные данные — это два фрейма данных:
import pandas as pd

df_having = pd.DataFrame({'ID': , 'NAME': , 'TYPE': , 'CATEGORY': })
df_tohave = pd.DataFrame({'ID': , 'NAME': , 'TYPE': , 'CATEGORY': })

Я пытаюсь выполнить сравнение на основе...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
12 окт 2024, 10:50
Как по-настоящему сравнить два кадра данных на основе ключевого столбца?

Последнее сообщение Anonymous « 12 окт 2024, 11:23
Добавлено в форуме Python

Anonymous » 12 окт 2024, 11:23 » в форуме Python

Мои входные данные — это два фрейма данных:
import pandas as pd

df_having = pd.DataFrame({'ID': , 'NAME': , 'TYPE': , 'CATEGORY': })
df_tohave = pd.DataFrame({'ID': , 'NAME': , 'TYPE': , 'CATEGORY': })

Я пытаюсь выполнить сравнение на основе...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
12 окт 2024, 11:23
Regex: Как соответствовать всем строкам, за исключением случаев, когда шаблон происходит в определенной позиции

Последнее сообщение Anonymous « 22 июл 2025, 23:09
Добавлено в форуме Python

Anonymous » 22 июл 2025, 23:09 » в форуме Python

У меня есть проблема, которая бы очень полезна, если я смогу включить все совпадения шаблона, которые не встречаются в одном конкретном индексе в строке. Например, если я хочу сопоставить «ABC», за исключением случаев, когда это происходит в 4 -й...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
22 июл 2025, 23:09

Вернуться в «Python»

Programmiererforum