Код: Выделить всё
homeКод: Выделить всё
productКод: Выделить всё
product_categoryКод: Выделить всё
product_tagКод: Выделить всё
brandКод: Выделить всё
postКод: Выделить всё
privacy_policyКод: Выделить всё
termsКод: Выделить всё
cookie_policy- и т. д.
- содержимым уценки (HTML → Markdown)
- меткой типа, описывающей тип страницы
Сложная часть — это классификация каждого URL-адреса в правильный тип страницы.
Что я пробовал до сих пор
Для некоторых URL-адресов шаблон прост:
- → продукт
Код: Выделить всё
/product/... - или /category/... → Product_category
Код: Выделить всё
/product_cat/... - → Product_tag
Код: Выделить всё
/product_tag/... - → бренд
Код: Выделить всё
/brand/... - URL-адреса, содержащие информацию о конфиденциальности, термины, файлы cookie → юридические страницы
Основная проблема
Многие магазины используют SEO-дружественные URL-адреса товаров которые не следуют какой-либо последовательной схеме.
Пример: https://www.example.com/health-aid-vita ... 000mg-doro
Это страница продукта, но:
- нет /product/ сегмент
- нет идентифицируемого маршрута, такого как маршрут=продукт/продукт
- сам по себе слаг ненадежен без добавления множества хрупких правил
Что я ищу
Я был бы очень признателен за идеи о том, как это сделать классификация более надежна, например:
1. Лучшие сигналы обнаружения продуктов из HTML, например:
- с @type: Product
Код: Выделить всё
application/ld+json - наличие цены, наличия, SKU, атрибутов
- кнопки «добавить в корзину» / «купить сейчас»
- общие шаблоны микроданных WooCommerce / OpenCart
- система на основе правил с упорядоченной эвристикой
- подход извлечения признаков + небольшая модель машинного обучения (наивный Байес, логистическая регрессия и т. д.)
- гибридный подход, сочетающий сигналы URL и сигналы HTML
- селекторы, классы CSS или схемы, обычно используемые WooCommerce / OpenCart / пользовательскими темами
- шаблоны, которые отличают страницы со списком категорий/брендов/тегов
Для каждой из них предоставляется только карта сайта (или индекс карты сайта) и HTML URL,
какие надежные способы классифицировать страницу по типам, например:
Код: Выделить всё
productМеня в первую очередь интересуют:
- надежное обнаружение продуктов, когда URL-адреса SEO не следуют очевидным шаблонам и
- советы по архитектуре для создания удобного в сопровождении классификатора на Python.
Подробнее здесь: https://stackoverflow.com/questions/798 ... art-custom
Мобильная версия