Как нормализовать URL-адрес в Java? ⇐ JAVA
-
Anonymous
Как нормализовать URL-адрес в Java?
Нормализация URL-адресов (или канонизация URL-адресов) – это процесс, посредством которого URL-адреса изменяются и стандартизируются согласованным образом. Цель процесса нормализации — преобразовать URL-адрес в нормализованный или канонический URL-адрес, чтобы можно было определить, эквивалентны ли два синтаксически разных URL-адреса.
Стратегии включают добавление косых черт в конце, https => http и т. д. На странице Википедии их много.
У вас есть любимый способ сделать это на Java? Возможно, библиотека (Натч?), но я открыт. Чем меньше и меньше зависимостей, тем лучше.
Я пока что-нибудь напишу вручную и слежу за этим вопросом.
РЕДАКТИРОВАТЬ: я хочу агрессивно нормализовать, чтобы URL-адреса считались одинаковыми, если они ссылаются на один и тот же контент. Например, я игнорирую параметры utm_source, utm_medium, utm_campaign. Например, я игнорирую поддомен, если заголовок тот же.
Нормализация URL-адресов (или канонизация URL-адресов) – это процесс, посредством которого URL-адреса изменяются и стандартизируются согласованным образом. Цель процесса нормализации — преобразовать URL-адрес в нормализованный или канонический URL-адрес, чтобы можно было определить, эквивалентны ли два синтаксически разных URL-адреса.
Стратегии включают добавление косых черт в конце, https => http и т. д. На странице Википедии их много.
У вас есть любимый способ сделать это на Java? Возможно, библиотека (Натч?), но я открыт. Чем меньше и меньше зависимостей, тем лучше.
Я пока что-нибудь напишу вручную и слежу за этим вопросом.
РЕДАКТИРОВАТЬ: я хочу агрессивно нормализовать, чтобы URL-адреса считались одинаковыми, если они ссылаются на один и тот же контент. Например, я игнорирую параметры utm_source, utm_medium, utm_campaign. Например, я игнорирую поддомен, если заголовок тот же.
Мобильная версия