Я работаю над проектом по прогнозированию должностей на основе набора данных, содержащего 39 функций и 33 уникальных должностей в качестве целевых меток. Набор данных содержит 20 000 строк и включает как числовые, так и категориальные столбцы.
Вот краткое описание набора данных:
Числовые характеристики (14): Процентное соотношение академических предметов (например, операционные системы, алгоритмы), рейтинг логических коэффициентов, посещенных хакатонов и т. д.
Двоичные функции (16): Такие вопросы, как «может ли система работать долгое время?», «способность к самообучению?» и т. д.
Категорические характеристики (8): Включает «сертификаты», «оценку памяти», «интересную область карьеры» и т. д.
Целевая переменная: Рекомендуемая должность (например, «Разработчик баз данных», «Инженер-программист» и т. д.).
Проблема:
Я предварительно обработал набор данных и попробовал такие модели обучения, как Random Forest, SVM и XGBoost, но точность остается неизменно низкой (около 3%). Я подозреваю, что проблема может быть связана с предварительной обработкой, выбором модели или настройкой гиперпараметра. Конвейер предварительной обработки:
Я работаю над проектом по прогнозированию должностей на основе набора данных, содержащего [b]39 функций[/b] и [b]33 уникальных должностей[/b] в качестве целевых меток. Набор данных содержит [b]20 000 строк[/b] и включает как числовые, так и категориальные столбцы. Вот краткое описание набора данных: [list][*][b]Числовые характеристики (14):[/b] Процентное соотношение академических предметов (например, операционные системы, алгоритмы), рейтинг логических коэффициентов, посещенных хакатонов и т. д. [*][b]Двоичные функции (16):[/b] Такие вопросы, как «может ли система работать долгое время?», «способность к самообучению?» и т. д. [*][b]Категорические характеристики (8):[/b] Включает «сертификаты», «оценку памяти», «интересную область карьеры» и т. д. [*][b]Целевая переменная: [/b] Рекомендуемая должность (например, «Разработчик баз данных», «Инженер-программист» и т. д.). [/list] [b]Проблема:[/b]
Я предварительно обработал набор данных и попробовал такие модели обучения, как [b]Random Forest[/b], [b]SVM[/b] и [b]XGBoost[/b], но точность остается неизменно низкой (около 3%). Я подозреваю, что проблема может быть связана с предварительной обработкой, выбором модели или настройкой гиперпараметра. [b]Конвейер предварительной обработки:[/b]
Вот как Я предварительно обрабатываю данные: [code]from sklearn.compose import ColumnTransformer from sklearn.pipeline import Pipeline from sklearn.preprocessing import OrdinalEncoder, OneHotEncoder, MinMaxScaler
def transform_data(df): X = df.drop('Suggested Job Role', axis=1) y = df['Suggested Job Role']
# Feature types two_category_features = ['can work long time before system?', 'self-learning capability?', 'Extra-courses did', 'talenttests taken?', 'olympiads', 'Job/Higher Studies?', 'Taken inputs from seniors or elders', 'interested in games', 'Salary Range Expected', 'In a Realtionship?', 'Gentle or Tuff behaviour?', 'Management or Technical', 'Salary/work', 'hard/smart worker', 'worked in teams ever?', 'Introvert']
categorical_features = ['certifications', 'workshops', 'reading and writing skills', 'memory capability score', 'Interested subjects', 'interested career area ', 'Type of company want to settle in?', 'Interested Type of Books']
numeric_features = ['Acedamic percentage in Operating Systems', 'percentage in Algorithms', 'Percentage in Programming Concepts', 'Percentage in Software Engineering', 'Percentage in Computer Networks', 'Percentage in Electronics Subjects', 'Percentage in Computer Architecture', 'Percentage in Mathematics', 'Percentage in Communication skills', 'Logical quotient rating', 'hackathons', 'coding skills rating', 'public speaking points', 'Hours working per day']
transformed_X = preprocessor.fit_transform(X) return transformed_X, y [/code] [b]Опробованные модели:[/b] [list] [*][b]Случайный лес:[/b] Использование параметры по умолчанию. [*][b]SVM:[/b] Пробовано с ядром RBF, гиперпараметры по умолчанию. [*][b]XGBoost:[/b] > Параметры по умолчанию. [/list] Несмотря на попытку моделей точность составляет около [b]3 %[/b].
[b]Вопросы:[/b][list] [*]Почему модели могут работать неэффективно в этом наборе данных? [*]Есть ли конкретные методы или подходы, которые мне следует попробовать (например, настройка гиперпараметров, функция отбор, передискретизация)? [*]Как мне лучше справиться с высокая кардинальность целевой переменной (33 уникальные должности)? [/list]
Я пытаюсь построить модель MLP с помощью PyleArn2. Но руководство не настолько явно в том, как импортировать внешние данные (все уроки используют набор данных MNIST).
Итак, мои данные являются файлами CSV:
0 0.129 -0.234 0.394 ...
0 0.293 -0.394...
У меня есть классификатор 6 классов. Моими целевыми классами будут классы 1 и 2. Могу ли я суммировать значения TP, FN, FP классов 1 и 2 и вычислить точность и отзыв на основе совокупных значений? Или мне нужно будет вернуться к классификатору и...
Я работаю над проектом, в котором у меня есть данные с X метеостанций, каждая со своей широтой, долготой, высотой над уровнем моря и ежедневными измерениями температуры за несколько лет. Моя задача — спрогнозировать температуру на одной из этих...
Во-первых, я просмотрел другие сообщения SO с тем же сообщением об ошибке, и ни одно из них не помогло решить мою проблему. Я перепробовал много перестановок и вариантов. Моя функция строится нормально, но не запускается в CLI. Я получаю следующую...