Наиболее эффективный способ категоризации, когда набор тегов не определен

Наиболее эффективный способ категоризации, когда набор тегов не определен ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Наиболее эффективный способ категоризации, когда набор тегов не определен

Цитата

Сообщение Anonymous » 23 июн 2024, 17:46

Создавая систему категоризации, я столкнулся с проблемой, которую пытаюсь найти решение. В моей системе есть теги, используемые для категоризации, но с оговоркой, что со временем будет добавлено больше тегов и категорий.
Вместо того, чтобы использовать векторизатор слов и MultinomialNB, я решил создать таблицу перевода, в которой теги приравниваются к категориям, а теги/категории могут быть добавлены со временем.
Это теоретически решило две мои проблемы, такие как 1: у меня нет данных для обучения (буквально цель состоит в том, чтобы начать с нуля и иметь категоризацию как функцию по мере добавления данных), только новые записи со связанными тегами и 2: она масштабируема.
Вопрос в том, как взвесить такую систему? добавленные теги не могут быть такими же, как у меня сейчас, поскольку только потому, что тег является частью категории, он не на 100% представляет эту категорию. Я мог бы установить его вручную, но это может занять много времени.
А теги к категории добавляются при вводе новых данных. Это просто так. Единственное, что меня поддерживает, так это то, что у классификации есть описания.
вот код ниже
unique_categories_with_tags = {"FPS" : {"First Person": 1,
"shooting": 1,
"weapons": 1,}
"JRPG": {"Japanese": 1,
"Role Playing": 1,
"Anime style": 1,
"Stat building": 1,
"weapons": 1,
"exploration": 1},
"adventure": {"exploration": 1,
"platforming": 1,
"weapons": 1,
"open world: 1}

descriptions = {"FPS": """FPS stands for first person shooter where players in the first
person perspective run around set environments and shoot at
opponents. Weapons can range from guns, bows, and other distance
style weapons""",
"JRPG": """JRPG stands for Japanese Roleplaying Game, and is essentially, an
RPG designed and produced in Japan. JRPGs are typically identified
as having leveling systems, anime aesthetics, and have themes about
killing god with the power of friendship."""}

Вот код для построения системы прогнозирования. В настоящее время у меня есть веса, основанные на частоте в словаре. Чем больше раз появляется тег, тем он слабее.
class PredSystem:
weights: pd.DataFrame

def build_weights(self, weight_dictionary: Dict) -> None:
keys = list(data.keys())

unique_tags = []
for cat in data:
for entry in data[cat]:
unique_tags.append(entry)
unique_tags = list(set(unique_tags))

translation_table = np.zeros([len(unique_tags),len(keys)])

translation_df = pd.DataFrame(data=translation_table,index=unique_tags,columns=keys)

for data_weights in data:
weight_keys = list(data[data_weights].keys())
weight_df = pd.DataFrame(list(data[data_weights].values()), index=weight_keys,
columns=[data_weights])
translation_df.update(weight_df)

translation_df_weighted = translation_df.div(translation_df.sum(axis=1),axis=0)
self.weights = translation_df_weighted

def predict_classification(self, keywordTags: List) -> str:
predictions = self.weights.loc[keywordTags,:].sum().sort_values(ascending=False)
return predictions.keys()[0]

для запуска кода
test_tags = ["Japanese","weapons","exploration","shooting"]

PS = PredSystem()
PS.build_weights(unique_categories_with_tags )
PS.predict_classification(test_tags)

Подробнее здесь: https://stackoverflow.com/questions/786 ... ot-defined

1719154007

Anonymous

Создавая систему категоризации, я столкнулся с проблемой, которую пытаюсь найти решение. В моей системе есть теги, используемые для категоризации, но с оговоркой, что со временем будет добавлено больше тегов и категорий.
Вместо того, чтобы использовать векторизатор слов и MultinomialNB, я решил создать таблицу перевода, в которой теги приравниваются к категориям, а теги/категории могут быть добавлены со временем.
Это теоретически решило две мои проблемы, такие как 1: у меня нет данных для обучения (буквально цель состоит в том, чтобы начать с нуля и иметь категоризацию как функцию по мере добавления данных), только новые записи со связанными тегами и 2: она масштабируема.
Вопрос в том, как взвесить такую систему? добавленные теги не могут быть такими же, как у меня сейчас, поскольку только потому, что тег является частью категории, он не на 100% представляет эту категорию. Я мог бы установить его вручную, но это может занять много времени.
А теги к категории добавляются при вводе новых данных. Это просто так. Единственное, что меня поддерживает, так это то, что у классификации есть описания.
вот код ниже
unique_categories_with_tags = {"FPS" : {"First Person": 1,
"shooting": 1,
"weapons": 1,}
"JRPG": {"Japanese": 1,
"Role Playing": 1,
"Anime style": 1,
"Stat building": 1,
"weapons": 1,
"exploration": 1},
"adventure": {"exploration": 1,
"platforming": 1,
"weapons": 1,
"open world: 1}

descriptions = {"FPS": """FPS stands for first person shooter where players in the first
person perspective run around set environments and shoot at
opponents. Weapons can range from guns, bows, and other distance
style weapons""",
"JRPG": """JRPG stands for Japanese Roleplaying Game, and is essentially, an
RPG designed and produced in Japan. JRPGs are typically identified
as having leveling systems, anime aesthetics, and have themes about
killing god with the power of friendship."""}

Вот код для построения системы прогнозирования. В настоящее время у меня есть веса, основанные на частоте в словаре. Чем больше раз появляется тег, тем он слабее.
class PredSystem:
weights: pd.DataFrame

def build_weights(self, weight_dictionary: Dict) -> None:
keys = list(data.keys())

unique_tags = []
for cat in data:
for entry in data[cat]:
unique_tags.append(entry)
unique_tags = list(set(unique_tags))

translation_table = np.zeros([len(unique_tags),len(keys)])

translation_df = pd.DataFrame(data=translation_table,index=unique_tags,columns=keys)

for data_weights in data:
weight_keys = list(data[data_weights].keys())
weight_df = pd.DataFrame(list(data[data_weights].values()), index=weight_keys,
columns=[data_weights])
translation_df.update(weight_df)

translation_df_weighted = translation_df.div(translation_df.sum(axis=1),axis=0)
self.weights = translation_df_weighted

def predict_classification(self, keywordTags: List) -> str:
predictions = self.weights.loc[keywordTags,:].sum().sort_values(ascending=False)
return predictions.keys()[0]

для запуска кода
test_tags = ["Japanese","weapons","exploration","shooting"]

PS = PredSystem()
PS.build_weights(unique_categories_with_tags )
PS.predict_classification(test_tags)
 

Подробнее здесь: [url]https://stackoverflow.com/questions/78658991/most-efficient-way-to-categorize-when-tag-set-not-defined[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Symfony2 — Настройка облака тегов с использованием веса тегов для популярных тегов

Последнее сообщение Anonymous « 25 окт 2024, 08:03
Добавлено в форуме Php

Anonymous » 25 окт 2024, 08:03 » в форуме Php

Я пытаюсь настроить взвешенное облако тегов, которое работает, когда теги являются строковыми свойствами в сущности блога.

Теперь я настроил теги как отдельные сущности и связал их с блогом как двунаправленное отношение ManyToMany/ManyToMany....

0 Ответы

83 Просмотры

Последнее сообщение Anonymous
25 окт 2024, 08:03
Какова правильная логика классификации и категоризации изображений с помощью Python?

Последнее сообщение Anonymous « 05 ноя 2024, 02:17
Добавлено в форуме Python

Anonymous » 05 ноя 2024, 02:17 » в форуме Python

Я прочитал множество статей здесь и в других местах, консультировался с ChatGPT и Gemini и даже спрашивал реальных людей, но мне также хотелось бы узнать мнение этого сообщества:
Я пытаюсь создать классификатор фотографий.
Идея заключалась в том,...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
05 ноя 2024, 02:17
Классификаторы категоризации текста

Последнее сообщение Anonymous « 29 ноя 2024, 07:24
Добавлено в форуме JAVA

Anonymous » 29 ноя 2024, 07:24 » в форуме JAVA

Кто-нибудь знает хорошие модели категоризации текста с открытым исходным кодом? Я знаю о Stanford Classifier, Weka, Mallet и т. д., но все они требуют обучения.

Мне нужно классифицировать новостные статьи по категориям «Спорт», «Политика»,...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
29 ноя 2024, 07:24
Java - даже позиционируйте буквы в строке для категоризации [дубликат]

Последнее сообщение Anonymous « 17 дек 2024, 17:43
Добавлено в форуме JAVA

Anonymous » 17 дек 2024, 17:43 » в форуме JAVA

public class UsingArrayGetEvenLettersFromString {

public static void main(String[] args) {
// even letters
String str = new String( hello );
char[] ch = str.toCharArray();
char[] eCh = {};
char[] oCh = {};
System.out.println( length : +ch.length);...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
17 дек 2024, 17:43
Как автоматически генерировать описания тегов продуктов для всех существующих тегов продуктов

Последнее сообщение Гость « 09 мар 2024, 22:53
Добавлено в форуме Php

Гость » 09 мар 2024, 22:53 » в форуме Php

I want to automatically generate short descriptions for all existing product tags which would be the same as the product tag itself is it possible? I suppose it should be possible with php function. Any idea?

Источник:

0 Ответы

69 Просмотры

Последнее сообщение Гость
09 мар 2024, 22:53

Вернуться в «Python»