Я пытаюсь придумать метод поиска повторяющихся адресов, основанный на показателе сходства. Рассмотрим эти повторяющиеся адреса:
Код: Выделить всё
addr_1 = '# 3 FAIRMONT LINK SOUTH'
addr_2 = '3 FAIRMONT LINK S'
addr_3 = '5703 - 48TH AVE'
adrr_4 = '5703- 48 AVENUE'
Я планирую применить преобразование строк, чтобы сократить длинные слова, например СЕВЕР -> N, удалить все пробелы, запятые, тире и символы решетки. Теперь, имея этот вывод, как я могу сравнить addr_3 с остальными адресами и обнаружить схожие? Какой процент сходства будет безопасным? Не могли бы вы предоставить для этого простой код Python?
Код: Выделить всё
addr_1 = '3FAIRMONTLINKS'
addr_2 = '3FAIRMONTLINKS'
addr_3 = '570348THAV'
adrr_4 = '570348AV'
Спасибо,
Эдуардо
Подробнее здесь:
https://stackoverflow.com/questions/136 ... -addresses