Как обучить модель прогнозированию должностей с помощью многоклассового набора данных? - Цифровое Кемерово

Как обучить модель прогнозированию должностей с помощью многоклассового набора данных? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как обучить модель прогнозированию должностей с помощью многоклассового набора данных?

Цитата

Сообщение Anonymous » 27 дек 2024, 22:10

Я работаю над проектом по прогнозированию должностей на основе набора данных, содержащего 39 функций и 33 уникальных должностей в качестве целевых меток. Набор данных содержит 20 000 строк и включает как числовые, так и категориальные столбцы.
Вот краткое описание набора данных:

Числовые характеристики (14): Процентное соотношение академических предметов (например, операционные системы, алгоритмы), рейтинг логических коэффициентов, посещенных хакатонов и т. д.
Двоичные функции (16): Такие вопросы, как «может ли система работать долгое время?», «способность к самообучению?» и т. д.
Категорические характеристики (8): Включает «сертификаты», «оценку памяти», «интересную область карьеры» и т. д.
Целевая переменная: Рекомендуемая должность (например, «Разработчик баз данных», «Инженер-программист» и т. д.).

Проблема:

Я предварительно обработал набор данных и попробовал такие модели обучения, как Random Forest, SVM и XGBoost, но точность остается неизменно низкой (около 3%). Я подозреваю, что проблема может быть связана с предварительной обработкой, выбором модели или настройкой гиперпараметра.
Конвейер предварительной обработки:

Вот как Я предварительно обрабатываю данные:

Код: Выделить всё

from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OrdinalEncoder, OneHotEncoder, MinMaxScaler

def transform_data(df):
X = df.drop('Suggested Job Role', axis=1)
y = df['Suggested Job Role']

# Feature types
two_category_features = ['can work long time before system?', 'self-learning capability?',
'Extra-courses did', 'talenttests taken?', 'olympiads', 'Job/Higher Studies?',
'Taken inputs from seniors or elders', 'interested in games', 'Salary Range Expected',
'In a Realtionship?', 'Gentle or Tuff behaviour?', 'Management or Technical',
'Salary/work', 'hard/smart worker', 'worked in teams ever?', 'Introvert']

categorical_features = ['certifications', 'workshops', 'reading and writing skills',
'memory capability score', 'Interested subjects',
'interested career area ', 'Type of company want to settle in?',
'Interested Type of Books']

numeric_features = ['Acedamic percentage in Operating Systems', 'percentage in Algorithms',
'Percentage in Programming Concepts', 'Percentage in Software Engineering',
'Percentage in Computer Networks', 'Percentage in Electronics Subjects',
'Percentage in Computer Architecture', 'Percentage in Mathematics',
'Percentage in Communication skills', 'Logical quotient rating',
'hackathons', 'coding skills rating', 'public speaking points', 'Hours working per day']

# Preprocessing pipelines
two_category_transformer = Pipeline(steps=[
('ordinal', OrdinalEncoder())
])
categorical_transformer = Pipeline(steps=[
('onehot', OneHotEncoder(handle_unknown='ignore'))
])
numeric_transformer = Pipeline(steps=[
('minmax', MinMaxScaler())
])

# Combine transformations
preprocessor = ColumnTransformer(transformers=[
('two_cat', two_category_transformer, two_category_features),
('cat', categorical_transformer, categorical_features),
('minmax', numeric_transformer, numeric_features)
])

transformed_X = preprocessor.fit_transform(X)
return transformed_X, y

Опробованные модели:

Случайный лес: Использование параметры по умолчанию.
SVM: Пробовано с ядром RBF, гиперпараметры по умолчанию.
XGBoost: > Параметры по умолчанию.

Несмотря на попытку моделей точность составляет около 3 %.

Вопросы:

Почему модели могут работать неэффективно в этом наборе данных?
Есть ли конкретные методы или подходы, которые мне следует попробовать (например, настройка гиперпараметров, функция отбор, передискретизация)?
Как мне лучше справиться с высокая кардинальность целевой переменной (33 уникальные должности)?

Подробнее здесь: https://stackoverflow.com/questions/793 ... ss-dataset

Реклама

1735326631

Anonymous

Я работаю над проектом по прогнозированию должностей на основе набора данных, содержащего [b]39 функций[/b] и [b]33 уникальных должностей[/b] в качестве целевых меток. Набор данных содержит [b]20 000 строк[/b] и включает как числовые, так и категориальные столбцы.
Вот краткое описание набора данных:
[list][*][b]Числовые характеристики (14):[/b] Процентное соотношение академических предметов (например, операционные системы, алгоритмы), рейтинг логических коэффициентов, посещенных хакатонов и т. д.
[*][b]Двоичные функции (16):[/b] Такие вопросы, как «может ли система работать долгое время?», «способность к самообучению?» и т. д.
[*][b]Категорические характеристики (8):[/b] Включает «сертификаты», «оценку памяти», «интересную область карьеры» и т. д.
[*][b]Целевая переменная: [/b] Рекомендуемая должность (например, «Разработчик баз данных», «Инженер-программист» и т. д.).
[/list]
[b]Проблема:[/b]

Я предварительно обработал набор данных и попробовал такие модели обучения, как [b]Random Forest[/b], [b]SVM[/b] и [b]XGBoost[/b], но точность остается неизменно низкой (около 3%).  Я подозреваю, что проблема может быть связана с предварительной обработкой, выбором модели или настройкой гиперпараметра.
[b]Конвейер предварительной обработки:[/b]

Вот как Я предварительно обрабатываю данные:
[code]from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OrdinalEncoder, OneHotEncoder, MinMaxScaler

def transform_data(df):
X = df.drop('Suggested Job Role', axis=1)
y = df['Suggested Job Role']

# Feature types
two_category_features = ['can work long time before system?', 'self-learning capability?',
'Extra-courses did', 'talenttests taken?', 'olympiads', 'Job/Higher Studies?',
'Taken inputs from seniors or elders', 'interested in games', 'Salary Range Expected',
'In a Realtionship?', 'Gentle or Tuff behaviour?', 'Management or Technical',
'Salary/work', 'hard/smart worker', 'worked in teams ever?', 'Introvert']

categorical_features = ['certifications', 'workshops', 'reading and writing skills',
'memory capability score', 'Interested subjects',
'interested career area ', 'Type of company want to settle in?',
'Interested Type of Books']

numeric_features = ['Acedamic percentage in Operating Systems', 'percentage in Algorithms',
'Percentage in Programming Concepts', 'Percentage in Software Engineering',
'Percentage in Computer Networks', 'Percentage in Electronics Subjects',
'Percentage in Computer Architecture', 'Percentage in Mathematics',
'Percentage in Communication skills', 'Logical quotient rating',
'hackathons', 'coding skills rating', 'public speaking points', 'Hours working per day']

# Preprocessing pipelines
two_category_transformer = Pipeline(steps=[
('ordinal', OrdinalEncoder())
])
categorical_transformer = Pipeline(steps=[
('onehot', OneHotEncoder(handle_unknown='ignore'))
])
numeric_transformer = Pipeline(steps=[
('minmax', MinMaxScaler())
])

# Combine transformations
preprocessor = ColumnTransformer(transformers=[
('two_cat', two_category_transformer, two_category_features),
('cat', categorical_transformer, categorical_features),
('minmax', numeric_transformer, numeric_features)
])

transformed_X = preprocessor.fit_transform(X)
return transformed_X, y
[/code]
[b]Опробованные модели:[/b]
[list]
[*][b]Случайный лес:[/b] Использование параметры по умолчанию.
[*][b]SVM:[/b] Пробовано с ядром RBF, гиперпараметры по умолчанию.
[*][b]XGBoost:[/b] > Параметры по умолчанию.
[/list]
Несмотря на попытку моделей точность составляет около [b]3 %[/b].

[b]Вопросы:[/b][list]
[*]Почему модели могут работать неэффективно в этом наборе данных?
[*]Есть ли конкретные методы или подходы, которые мне следует попробовать (например, настройка гиперпараметров, функция отбор, передискретизация)?
[*]Как мне лучше справиться с высокая кардинальность целевой переменной (33 уникальные должности)?
[/list] 

Подробнее здесь: [url]https://stackoverflow.com/questions/79312226/how-to-train-a-model-to-predict-job-roles-with-multi-class-dataset[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как мне обучить модель MLP с моими собственными данными вместо набора данных MNIST

Последнее сообщение Anonymous « 13 авг 2025, 00:05
Добавлено в форуме Python

Anonymous » 13 авг 2025, 00:05 » в форуме Python

Я пытаюсь построить модель MLP с помощью PyleArn2. Но руководство не настолько явно в том, как импортировать внешние данные (все уроки используют набор данных MNIST).
Итак, мои данные являются файлами CSV:
0 0.129 -0.234 0.394 ...
0 0.293 -0.394...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
13 авг 2025, 00:05
Агрегирование классов в матрице путаницы для многоклассового классификатора

Последнее сообщение Anonymous « 28 май 2024, 15:53
Добавлено в форуме Python

Anonymous » 28 май 2024, 15:53 » в форуме Python

У меня есть классификатор 6 классов. Моими целевыми классами будут классы 1 и 2. Могу ли я суммировать значения TP, FN, FP классов 1 и 2 и вычислить точность и отзыв на основе совокупных значений? Или мне нужно будет вернуться к классификатору и...

0 Ответы

41 Просмотры

Последнее сообщение Anonymous
28 май 2024, 15:53
Как вычислить точность, отзыв, точность и показатель f1 для многоклассового случая с обучением scikit?

Последнее сообщение Anonymous « 27 окт 2024, 15:23
Добавлено в форуме Python

Anonymous » 27 окт 2024, 15:23 » в форуме Python

Я работаю над задачей анализа настроений, данные выглядят так:
label instances
5 1190
4 838
3 239
1 204
2 127

Поэтому мои данные несбалансированы, поскольку 1190 экземпляров помечены цифрой 5. Для классификации я использую SVC от scikit. Проблема...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
27 окт 2024, 15:23
Предложения и идеи по прогнозированию температуры определенной станции на основе данных окружающих станций

Последнее сообщение Anonymous « 16 сен 2024, 18:57
Добавлено в форуме Python

Anonymous » 16 сен 2024, 18:57 » в форуме Python

Я работаю над проектом, в котором у меня есть данные с X метеостанций, каждая со своей широтой, долготой, высотой над уровнем моря и ежедневными измерениями температуры за несколько лет. Моя задача — спрогнозировать температуру на одной из этих...

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
16 сен 2024, 18:57
Рабочие функции не найдены. Попробуйте сделать свои классы и методы должностей общедоступными.

Последнее сообщение Гость « 23 сен 2023, 21:14
Добавлено в форуме C#

Гость » 23 сен 2023, 21:14 » в форуме C#

Во-первых, я просмотрел другие сообщения SO с тем же сообщением об ошибке, и ни одно из них не помогло решить мою проблему. Я перепробовал много перестановок и вариантов. Моя функция строится нормально, но не запускается в CLI. Я получаю следующую...

0 Ответы

49 Просмотры

Последнее сообщение Гость
23 сен 2023, 21:14

Вернуться в «Python»

Programmiererforum