Как я могу классифицировать URL-адреса карты сайта (WooCommerce/OpenCart/custom) [закрыто]Python

Программы на Python
Ответить
Anonymous
 Как я могу классифицировать URL-адреса карты сайта (WooCommerce/OpenCart/custom) [закрыто]

Сообщение Anonymous »

Я работаю над сканером на Python, который берет карту сайта электронной коммерции и классифицирует каждый URL-адрес по типу страницы, например: Конечная цель — иметь все страницы с:
  • содержимым уценки (HTML → Markdown)
  • меткой типа, описывающей тип страницы
Для преобразования HTML → Markdown я использую Crawl4AI, который прекрасно работает.

Сложная часть — это классификация каждого URL-адреса в правильный тип страницы.

Что я пробовал до сих пор
Для некоторых URL-адресов шаблон прост: Это отлично работает для таких платформ, как WooCommerce или OpenCart, когда они используют предсказуемые шаблоны URL-адресов.

Основная проблема
Многие магазины используют SEO-дружественные URL-адреса товаров которые не следуют какой-либо последовательной схеме.

Пример: https://www.example.com/health-aid-vita ... 000mg-doro
Это страница продукта, но:
  • нет /product/ сегмент
  • нет идентифицируемого маршрута, такого как маршрут=продукт/продукт
  • сам по себе слаг ненадежен без добавления множества хрупких правил
Поэтому классификация на основе URL становится ненадежной.

Что я ищу
Я был бы очень признателен за идеи о том, как это сделать классификация более надежна, например:
1. Лучшие сигналы обнаружения продуктов из HTML, например:
  • Код: Выделить всё

    application/ld+json
    с @type: Product
  • наличие цены, наличия, SKU, атрибутов
  • кнопки «добавить в корзину» / «купить сейчас»
  • общие шаблоны микроданных WooCommerce / OpenCart
2. Как структурировать удобный в сопровождении классификатор, например:
  • система на основе правил с упорядоченной эвристикой
  • подход извлечения признаков + небольшая модель машинного обучения (наивный Байес, логистическая регрессия и т. д.)
  • гибридный подход, сочетающий сигналы URL и сигналы HTML
3. Подсказки для конкретной платформы
  • селекторы, классы CSS или схемы, обычно используемые WooCommerce / OpenCart / пользовательскими темами
  • шаблоны, которые отличают страницы со списком категорий/брендов/тегов
Сводка
Для каждой из них предоставляется только карта сайта (или индекс карты сайта) и HTML URL,

какие надежные способы классифицировать страницу по типам, например: , Product_category, Product_tag, Brand, post, static_page, Privacy_policy, terms, cookie_policy и т. д.?
Меня в первую очередь интересуют:
  • надежное обнаружение продуктов, когда URL-адреса SEO не следуют очевидным шаблонам и
  • советы по архитектуре для создания удобного в сопровождении классификатора на Python.


Подробнее здесь: https://stackoverflow.com/questions/798 ... art-custom
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»