Как нормализовать URL-адрес в Java?JAVA

Программисты JAVA общаются здесь
Ответить
Anonymous
 Как нормализовать URL-адрес в Java?

Сообщение Anonymous »


Нормализация URL-адресов (или канонизация URL-адресов) – это процесс, посредством которого URL-адреса изменяются и стандартизируются согласованным образом. Цель процесса нормализации — преобразовать URL-адрес в нормализованный или канонический URL-адрес, чтобы можно было определить, эквивалентны ли два синтаксически разных URL-адреса.

Стратегии включают добавление косых черт в конце, https => http и т. д. На странице Википедии их много.

У вас есть любимый способ сделать это на Java? Возможно, библиотека (Натч?), но я открыт. Чем меньше и меньше зависимостей, тем лучше.

Я пока что-нибудь напишу вручную и слежу за этим вопросом.

РЕДАКТИРОВАТЬ: я хочу агрессивно нормализовать, чтобы URL-адреса считались одинаковыми, если они ссылаются на один и тот же контент. Например, я игнорирую параметры utm_source, utm_medium, utm_campaign. Например, я игнорирую поддомен, если заголовок тот же.
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «JAVA»