Стратегии поиска повторяющихся почтовых адресов

Стратегии поиска повторяющихся почтовых адресов ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Стратегии поиска повторяющихся почтовых адресов

Цитата

Сообщение Anonymous » 16 янв 2026, 05:47

Я пытаюсь придумать метод поиска повторяющихся адресов, основанный на показателе сходства. Рассмотрим эти повторяющиеся адреса:

Код: Выделить всё

addr_1 = '# 3 FAIRMONT LINK SOUTH'
addr_2 = '3 FAIRMONT LINK S'

addr_3 = '5703 - 48TH AVE'
adrr_4 = '5703- 48 AVENUE'

Я планирую применить преобразование строк, чтобы сократить длинные слова, например СЕВЕР -> N, удалить все пробелы, запятые, тире и символы решетки. Теперь, имея этот вывод, как я могу сравнить addr_3 с остальными адресами и обнаружить схожие? Какой процент сходства будет безопасным? Не могли бы вы предоставить для этого простой код Python?

Код: Выделить всё

addr_1 = '3FAIRMONTLINKS'
addr_2 = '3FAIRMONTLINKS'

addr_3 = '570348THAV'
adrr_4 = '570348AV'

Спасибо,

Эдуардо

Подробнее здесь: https://stackoverflow.com/questions/136 ... -addresses

1768531620

Anonymous

Я пытаюсь придумать метод поиска повторяющихся адресов, основанный на показателе сходства. Рассмотрим эти повторяющиеся адреса:

[code]addr_1 = '# 3 FAIRMONT LINK SOUTH'
addr_2 = '3 FAIRMONT LINK S'

addr_3 = '5703 - 48TH AVE'
adrr_4 = '5703- 48 AVENUE'
[/code]

Я планирую применить преобразование строк, чтобы сократить длинные слова, например СЕВЕР -> N, удалить все пробелы, запятые, тире и символы решетки. Теперь, имея этот вывод, как я могу сравнить addr_3 с остальными адресами и обнаружить схожие? Какой процент сходства будет безопасным? Не могли бы вы предоставить для этого простой код Python?

[code]addr_1 = '3FAIRMONTLINKS'
addr_2 = '3FAIRMONTLINKS'

addr_3 = '570348THAV'
adrr_4 = '570348AV'
[/code]

Спасибо,

Эдуардо 

Подробнее здесь: [url]https://stackoverflow.com/questions/1369289/strategies-for-finding-duplicate-mailing-addresses[/url]