У меня есть список из около 11 000 различных тегов. Я хочу присвоить компаниям соответствующие теги на основе их описания. Описание представляет собой короткий текст длиной около 1000 символов, описывающий компанию и предлагаемые ею услуги. Я встроил текст и теги и использовал косинусное сходство, чтобы получить список наиболее релевантных тегов. Это работает относительно хорошо, но я заметил, что более конкретные (длинные) теги имеют преимущество перед более общими. Например:
Компания может производить сельскохозяйственную технику. Могут быть найдены следующие теги:
'сельскохозяйственная техника', 'машиностроение', 'сельскохозяйственная техника'
Но есть и более общие теги. в наборе данных, которые также могут иметь отношение к компании, например «оборудование».
Причина, по которой я хочу, чтобы эти более общие теги также сопоставлялись, заключается в том, что я ожидаю, что пользователи будут чаще использовать более общие теги. часто, если я не назначу эти теги, которые зачастую компании могут быть не найдены.
Каков будет хороший подход к сопоставлению более общих тегов с описаниями компаний?
Подробнее здесь: https://stackoverflow.com/questions/792 ... ts-when-us
Как я могу гарантировать, что короткие или общие слова будут найдены в качестве релевантных результатов при использовани ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Вложенное исключение — org.hibernate.HibernateException: найдены общие ссылки на коллекцию.
Anonymous » » в форуме JAVA - 0 Ответы
- 14 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Вложенное исключение — org.hibernate.HibernateException: найдены общие ссылки на коллекцию.
Anonymous » » в форуме JAVA - 0 Ответы
- 18 Просмотры
-
Последнее сообщение Anonymous
-