Текущий подход: Я вручную выявлял и исправлял варианты одно за другим:
Код: Выделить всё
UPDATE olist_geolocation_staging_2
SET geolocation_city = TRIM(geolocation_city);
UPDATE olist_geolocation_staging_2
SET geolocation_city = 'sao paulo'
WHERE geolocation_city LIKE 'sa%paulo';
UPDATE olist_geolocation_staging_2
SET geolocation_city = 'mogi das cruzes'
WHERE geolocation_city LIKE 'mogi%das%cruzes';
Этот ручной подход плохо масштабируется для 5000 значений. Мне нужен более систематический способ:
- Автоматически идентифицировать варианты названий городов
- Группировать похожие названия вместе
- Эффективно их стандартизировать
Какова эффективная стратегия SQL для обнаружения и стандартизировать эти варианты в MySQL?
Подробнее здесь: https://stackoverflow.com/questions/798 ... malization
Мобильная версия