Как я могу классифицировать URL-адреса карты сайта (WooCommerce/OpenCart/custom) [закрыто]Python

Программы на Python
Ответить
Anonymous
 Как я могу классифицировать URL-адреса карты сайта (WooCommerce/OpenCart/custom) [закрыто]

Сообщение Anonymous »

Я работаю над сканером на Python, который берет карту сайта электронной коммерции и
классифицирует каждый URL-адрес по типу страницы, например: Моя цель — извлечь для каждого URL-адреса:
  • контент Markdown (HTML → Markdown)
  • метку типа страницы
Crawl4AI хорошо справляется с извлечением.

Сложная часть — классифицировать каждую страницу по правильный тип,
особенно, когда URL-адреса не дают никакой подсказки.

Что я пробовал
Эвристика на основе URL-адресов: Это отлично работает для WooCommerce / OpenCart.
Это не работает для оптимизированных для SEO URL-адресов, таких как:

Код: Выделить всё

/health-aid-vitamin-c-1000mg-orange-eff-20s-pr-vitamin-c1000mg-doro
Нет очевидной структуры, нет сегмента /product/, а фрагмент ненадежен.
Одна из идей, которую я рассматриваю для этих случаев, — отправить HTML (или Markdown
, извлеченный с помощью Crawl4AI) в локальную модель, и позволить ей решить, какой тип страницы
он основан на контенте.

Имея только карту сайта и HTML-код для каждого URL-адреса:
Как бы вы подошли к разработке решения этой проблемы?

Подробнее здесь: https://stackoverflow.com/questions/798 ... art-custom
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»