Стратегии поиска повторяющихся почтовых адресовPython

Программы на Python
Ответить
Anonymous
 Стратегии поиска повторяющихся почтовых адресов

Сообщение Anonymous »

Я пытаюсь придумать метод поиска повторяющихся адресов, основанный на показателе сходства. Рассмотрим эти повторяющиеся адреса:

Код: Выделить всё

addr_1 = '# 3 FAIRMONT LINK SOUTH'
addr_2 = '3 FAIRMONT LINK S'

addr_3 = '5703 - 48TH AVE'
adrr_4 = '5703- 48 AVENUE'
Я планирую применить преобразование строк, чтобы сократить длинные слова, например СЕВЕР -> N, удалить все пробелы, запятые, тире и символы решетки. Теперь, имея этот вывод, как я могу сравнить addr_3 с остальными адресами и обнаружить схожие? Какой процент сходства будет безопасным? Не могли бы вы предоставить для этого простой код Python?

Код: Выделить всё

addr_1 = '3FAIRMONTLINKS'
addr_2 = '3FAIRMONTLINKS'

addr_3 = '570348THAV'
adrr_4 = '570348AV'
Спасибо,

Эдуардо

Подробнее здесь: https://stackoverflow.com/questions/136 ... -addresses
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»