Как я могу классифицировать URL-адреса карты сайта (WooCommerce/OpenCart/custom) [закрыто]

Как я могу классифицировать URL-адреса карты сайта (WooCommerce/OpenCart/custom) [закрыто] ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как я могу классифицировать URL-адреса карты сайта (WooCommerce/OpenCart/custom) [закрыто]

Цитата

Сообщение Anonymous » 22 ноя 2025, 00:48

Я работаю над сканером на Python, который берет карту сайта электронной коммерции и
классифицирует каждый URL-адрес по типу страницы, например:

Код: Выделить всё
```
home
```
Код: Выделить всё
```
product
```
Код: Выделить всё
```
product_category
```
Код: Выделить всё
```
product_tag
```
Код: Выделить всё
```
brand
```
Код: Выделить всё
```
post
```
Код: Выделить всё
```
static_page
```
Код: Выделить всё
```
privacy_policy
```
Код: Выделить всё
```
terms
```
Код: Выделить всё
```
cookie_policy
```
и т. д.

Моя цель — извлечь для каждого URL-адреса:

контент Markdown (HTML → Markdown)
метку типа страницы

Crawl4AI хорошо справляется с извлечением.

Сложная часть — классифицировать каждую страницу по правильный тип,
особенно, когда URL-адреса не дают никакой подсказки.

Что я пробовал
Эвристика на основе URL-адресов:

Код: Выделить всё
```
/product/...
```
→ продукт
Код: Выделить всё
```
/product_cat/...
```
→ категория_продукта
Код: Выделить всё
```
/product_tag/...
```
→ Product_tag
Код: Выделить всё
```
/brand/...
```
→ бренд
URL-адреса, содержащие термины, конфиденциальность, cookie → легальные страницы

Это отлично работает для WooCommerce / OpenCart.
Это не работает для оптимизированных для SEO URL-адресов, таких как:

Код: Выделить всё

/health-aid-vitamin-c-1000mg-orange-eff-20s-pr-vitamin-c1000mg-doro

Нет очевидной структуры, нет сегмента /product/, а фрагмент ненадежен.
Одна из идей, которую я рассматриваю для этих случаев, — отправить HTML (или Markdown
, извлеченный с помощью Crawl4AI) в локальную модель, и позволить ей решить, какой тип страницы
он основан на контенте.

Имея только карту сайта и HTML-код для каждого URL-адреса:
Как бы вы подошли к разработке решения этой проблемы?

Подробнее здесь: https://stackoverflow.com/questions/798 ... art-custom

1763761711

Anonymous

Я работаю над сканером на Python, который берет карту сайта электронной коммерции и
классифицирует каждый URL-адрес по [b]типу страницы[/b], например:
[list]
[*][code]home[/code]
[*][code]product[/code]
[*][code]product_category[/code]
[*][code]product_tag[/code]
[*][code]brand[/code]
[*][code]post[/code]
[*][code]static_page[/code]
[*][code]privacy_policy[/code]
[*][code]terms[/code]
[*][code]cookie_policy[/code]
[*]и т. д.
[/list]
Моя цель — извлечь для каждого URL-адреса:
[list]
[*]контент Markdown (HTML → Markdown)
[*]метку типа страницы
[/list]
Crawl4AI хорошо справляется с извлечением.

Сложная часть — [b]классифицировать каждую страницу по правильный тип[/b],
особенно, когда URL-адреса не дают никакой подсказки.

Что я пробовал
Эвристика на основе URL-адресов:
[list]
[*][code]/product/...[/code] → продукт
[*][code]/product_cat/...[/code] → категория_продукта
[*][code]/product_tag/...[/code] → Product_tag
[*][code]/brand/...[/code] → бренд
[*]URL-адреса, содержащие термины, конфиденциальность, cookie → легальные страницы
[/list]
Это отлично работает для WooCommerce / OpenCart.
Это не работает для оптимизированных для SEO URL-адресов, таких как:
[code]/health-aid-vitamin-c-1000mg-orange-eff-20s-pr-vitamin-c1000mg-doro[/code]
Нет очевидной структуры, нет сегмента /product/, а фрагмент ненадежен.
Одна из идей, которую я рассматриваю для этих случаев, — отправить HTML (или Markdown
, извлеченный с помощью Crawl4AI) в локальную модель, и позволить ей решить, какой тип страницы
он основан на контенте.

Имея [b]только[/b] карту сайта и HTML-код для каждого URL-адреса:
Как бы вы подошли к разработке решения этой проблемы? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79826597/how-can-i-classify-sitemap-urls-woocommerce-opencart-custom[/url]