Как получить нечеткие совпадения заданного набора имен в кадре данных полярностей Python? - Цифровое Кемерово

Как получить нечеткие совпадения заданного набора имен в кадре данных полярностей Python? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как получить нечеткие совпадения заданного набора имен в кадре данных полярностей Python?

Цитата

Сообщение Anonymous » 01 окт 2024, 19:54

Я пытаюсь реализовать дублирование имен для одного из наших вариантов использования.
Здесь у меня есть набор из 10 имен вместе с их индексным столбцом, как показано ниже.

Код: Выделить всё

df = pl.from_repr("""
┌───────┬───────────────────┐
│ index ┆ full_name         │
│ ---   ┆ ---               │
│ u32   ┆ str               │
╞═══════╪═══════════════════╡
│ 0     ┆ Mallesham Yamulla │
│ 1     ┆ Velmala Sharath   │
│ 2     ┆ Jagarini Yegurla  │
│ 3     ┆ Sharath Velmala   │
│ 4     ┆ Bhavik Vemulla    │
│ 5     ┆ Yegurla Mahesh    │
│ 6     ┆ Yegurla Jagarini  │
│ 7     ┆ Vermula Bhavik    │
│ 8     ┆ Mahesh Yegurla    │
│ 9     ┆ Yamulla Mallesham │
└───────┴───────────────────┘
""")

Здесь я хотел бы рассчитать нечеткие метрики (Левенштейн, ЯроВинклер) для каждой комбинации имен, используя модуль Rapidxfuzz, как показано ниже.

Код: Выделить всё

from rapidfuzz import fuzz
from rapidfuzz.distance import Levenshtein,JaroWinkler

Код: Выделить всё

round(Levenshtein.normalized_similarity(name_0,name_1),5)
round(JaroWinkler.similarity(name_0,name_1),5)

Например: имя idx-0 Маллешам Ямулла должно быть в паре с именами, имеющими индексы последовательность (1,9) имена[(0,1),(0,2),(0, 3),(0,4),(0,5),(0,6),(0,7),(0,8),(0,9)] и вычислите их аналогичные проценты Левенштейна и Яровринклера.
Следующее имя idx-1 с индексной последовательностью имен (2,9), idx-2 с индексной последовательностью имен (3,9), idx-3 с индексной последовательностью имен (4,9) и т. д. и т. д. до (8,9)
Ожидаемый результат:
[img]https:/ /i.sstatic.net/Aqs1F.png[/img]

Подробнее здесь: https://stackoverflow.com/questions/740 ... -dataframe

Реклама

1727801656

Anonymous

Я пытаюсь реализовать дублирование имен для одного из наших вариантов использования.
Здесь у меня есть набор из 10 имен вместе с их индексным столбцом, как показано ниже.
[code]df = pl.from_repr("""
┌───────┬───────────────────┐
│ index ┆ full_name         │
│ ---   ┆ ---               │
│ u32   ┆ str               │
╞═══════╪═══════════════════╡
│ 0     ┆ Mallesham Yamulla │
│ 1     ┆ Velmala Sharath   │
│ 2     ┆ Jagarini Yegurla  │
│ 3     ┆ Sharath Velmala   │
│ 4     ┆ Bhavik Vemulla    │
│ 5     ┆ Yegurla Mahesh    │
│ 6     ┆ Yegurla Jagarini  │
│ 7     ┆ Vermula Bhavik    │
│ 8     ┆ Mahesh Yegurla    │
│ 9     ┆ Yamulla Mallesham │
└───────┴───────────────────┘
""")
[/code]
Здесь я хотел бы рассчитать нечеткие метрики (Левенштейн, ЯроВинклер) для каждой комбинации имен, используя модуль Rapidxfuzz, как показано ниже.
[code]from rapidfuzz import fuzz
from rapidfuzz.distance import Levenshtein,JaroWinkler
[/code]
[code]round(Levenshtein.normalized_similarity(name_0,name_1),5)
round(JaroWinkler.similarity(name_0,name_1),5)
[/code]
Например: имя idx-0 Маллешам Ямулла должно быть в паре с именами, имеющими индексы последовательность (1,9) имена[(0,1),(0,2),(0, 3),(0,4),(0,5),(0,6),(0,7),(0,8),(0,9)] и вычислите их аналогичные проценты Левенштейна и Яровринклера.
Следующее имя idx-1 с индексной последовательностью имен (2,9), idx-2 с индексной последовательностью имен (3,9), idx-3 с индексной последовательностью имен (4,9) и т. д. и т. д. до (8,9)
Ожидаемый результат:
[img]https:/ /i.sstatic.net/Aqs1F.png[/img]
 

Подробнее здесь: [url]https://stackoverflow.com/questions/74064889/how-to-get-fuzzy-matches-of-given-set-of-names-in-python-polars-dataframe[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как получить нечеткие совпадения заданного набора имен в кадре данных полярностей Python?

Последнее сообщение Anonymous « 07 окт 2024, 00:42
Добавлено в форуме Python

Anonymous » 07 окт 2024, 00:42 » в форуме Python

Я пытаюсь реализовать дублирование имен для одного из наших вариантов использования.
Здесь у меня есть набор из 10 имен вместе с их индексным столбцом, как показано ниже.
df = pl.from_repr(
┌───────┬───────────────────┐
│ index ┆ full_name │
│ ---...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
07 окт 2024, 00:42
Функция для поиска всех имен, присутствующих и отсутствующих в кадре данных проверки, в другом кадре данных в Pandas.

Последнее сообщение Anonymous « 21 окт 2024, 23:17
Добавлено в форуме Python

Anonymous » 21 окт 2024, 23:17 » в форуме Python

У меня есть фрейм данных, который содержит следующую структуру:

А мне нужно проверить, присутствуют ли строки из столбца Имя из столбцов МНЕМОНИКА 1, 2, 3 и так далее, по контрольному списку, имеющему следующий формат:
p>

Что мне нужно...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
21 окт 2024, 23:17
Функция для поиска всех имен, присутствующих и отсутствующих в кадре данных проверки, в другом кадре данных в Pandas.

Последнее сообщение Anonymous « 22 окт 2024, 03:48
Добавлено в форуме Python

Anonymous » 22 окт 2024, 03:48 » в форуме Python

У меня есть фрейм данных, который содержит следующую структуру:

А мне нужно проверить, присутствуют ли строки из столбца Имя из столбцов МНЕМОНИКА 1, 2, 3 и так далее, по контрольному списку, имеющему следующий формат:
p>

Что мне нужно...

0 Ответы

26 Просмотры

Последнее сообщение Anonymous
22 окт 2024, 03:48
Мне нужно сравнить 2 CSV-файла с текстом более 300 000 и найти совпадения, а затем отобразить совпадения на экране. Лист

Последнее сообщение Anonymous « 31 окт 2024, 11:32
Добавлено в форуме JAVA

Anonymous » 31 окт 2024, 11:32 » в форуме JAVA

Я читаю два файла CSV со своего компьютера и заполняю этими данными массив. Затем я сравниваю эти два массивлиста, чтобы найти совпадения.
Если CSV-файлы содержат до 20 строк, то проблем с поиском совпадений и отображением не возникает, но когда...

0 Ответы

28 Просмотры

Последнее сообщение Anonymous
31 окт 2024, 11:32
Заставить Google Gemini отвечать на основе заданного набора данных с возможными ответами.

Последнее сообщение Anonymous « 04 авг 2024, 00:57
Добавлено в форуме Python

Anonymous » 04 авг 2024, 00:57 » в форуме Python

У меня есть набор данных с несколькими сотнями возможных ответов на запросы на сообщения, написанные пользователем. Теперь мне бы хотелось, чтобы Google Gemini понял контекст сообщения пользователя, выбрал ответ из набора данных и вернул его в...

0 Ответы

26 Просмотры

Последнее сообщение Anonymous
04 авг 2024, 00:57

Вернуться в «Python»

Programmiererforum