классифицирует каждый URL-адрес по типу страницы, например:
Код: Выделить всё
homeКод: Выделить всё
productКод: Выделить всё
product_categoryКод: Выделить всё
product_tagКод: Выделить всё
brandКод: Выделить всё
postКод: Выделить всё
static_pageКод: Выделить всё
privacy_policyКод: Выделить всё
termsКод: Выделить всё
cookie_policy- и т. д.
- контент Markdown (HTML → Markdown)
- метку типа страницы
Сложная часть — классифицировать каждую страницу по правильный тип,
особенно, когда URL-адреса не дают никакой подсказки.
Что я пробовал
Эвристика на основе URL-адресов:
- → продукт
Код: Выделить всё
/product/... - → категория_продукта
Код: Выделить всё
/product_cat/... - → Product_tag
Код: Выделить всё
/product_tag/... - → бренд
Код: Выделить всё
/brand/... - URL-адреса, содержащие термины, конфиденциальность, cookie → легальные страницы
Это не работает для оптимизированных для SEO URL-адресов, таких как:
Код: Выделить всё
/health-aid-vitamin-c-1000mg-orange-eff-20s-pr-vitamin-c1000mg-doroОдна из идей, которую я рассматриваю для этих случаев, — отправить HTML (или Markdown
, извлеченный с помощью Crawl4AI) в локальную модель, и позволить ей решить, какой тип страницы
он основан на контенте.
Имея только карту сайта и HTML-код для каждого URL-адреса:
Как бы вы подошли к разработке решения этой проблемы?
Подробнее здесь: https://stackoverflow.com/questions/798 ... art-custom
Мобильная версия