Устранение неисправностей классификатора случайных лесов в Scikit Learn

Устранение неисправностей классификатора случайных лесов в Scikit Learn ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Устранение неисправностей классификатора случайных лесов в Scikit Learn

Цитата

Сообщение Anonymous » 05 фев 2025, 14:09

Я пытаюсь запустить классификатор «Случайные леса» от Sci -Kit Learn и получение подозрительно плохого производства - менее 1% прогнозов верны. Модель работает намного хуже, чем шанс. Я относительно новичок в Python, ML и Sci-Kit Learn (тройной Whammy), и я обеспокоен тем, что я упускаю что-то фундаментальное, а не нужно точно настроить параметры. Я надеюсь, что больше ветеранов, чтобы просмотреть код и посмотреть, не так ли что -то не так. Электронная таблица, основанная на возникновениях слов - поэтому ввод для каждой строки представляет собой массив, представляющий, сколько раз появляется каждое слово, например, [1 0 0 2 0 ... 1]. Я использую график -резализатор Sci -Kit Learn для выполнения этой обработки - я кормлю его строками, содержащими слова в каждой строке, и он выводит слова (ы) возникновения слов. Если этот ввод не подходит по какой -то причине, то, вероятно, то, где дела идут не так, но я ничего не нашел в Интернете или в документации, предполагающем, что это так. 

 Прямо сейчас лес отвечает правильно примерно в 0,5% случаев. Использование одни и те же входные данные с SGD -классификатором дает около 80%, что говорит мне о том, что предварительная обработка и векторизация, которые я делаю, в порядке - это что -то особенное для классификатора RF. Моя первая реакция состояла в том, чтобы искать переживание, но даже когда я запускаю модель на данных , все равно становится почти все не так. 

Я играл с количеством деревьев и объемом учебных данных, но это, казалось, не сильно изменилось для меня. Я пытаюсь показать только соответствующий код, но могу опубликовать больше, если это полезно. Сначала так публикуйте, так что все мысли и отзывы оцениваются. 

#pull in package to create word occurence vectors for each line
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(min_df=1,charset_error='ignore')
X_train = vectorizer.fit_transform(train_file)
#convert to dense array, the required input type for random forest classifier
X_train = X_train.todense()

#pull in random forest classifier and train on data
from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier(n_estimators = 100, compute_importances=True)
clf = clf.fit(X_train, train_targets)

#transform the test data into the vector format
testdata = vectorizer.transform(test_file)
testdata = testdata.todense()

#export
with open('output.csv', 'wb') as csvfile:
spamwriter = csv.writer(csvfile)
for item in clf.predict(testdata):
spamwriter.writerow([item])

Подробнее здесь: https://stackoverflow.com/questions/219 ... -kit-learn

1738753791

Anonymous

 Я пытаюсь запустить классификатор «Случайные леса» от Sci -Kit Learn и получение подозрительно плохого производства - менее 1% прогнозов верны.  Модель работает намного хуже, чем шанс.  Я относительно новичок в Python, ML и Sci-Kit Learn (тройной Whammy), и я обеспокоен тем, что я упускаю что-то фундаментальное, а не нужно точно настроить параметры. Я надеюсь, что больше ветеранов, чтобы просмотреть код и посмотреть, не так ли что -то не так. Электронная таблица, основанная на возникновениях слов - поэтому ввод для каждой строки представляет собой массив, представляющий, сколько раз появляется каждое слово, например, [1 0 0 2 0 ... 1].  Я использую график -резализатор Sci -Kit Learn для выполнения этой обработки - я кормлю его строками, содержащими слова в каждой строке, и он выводит слова (ы) возникновения слов.  Если этот ввод не подходит по какой -то причине, то, вероятно, то, где дела идут не так, но я ничего не нашел в Интернете или в документации, предполагающем, что это так. < /P>

< P> Прямо сейчас лес отвечает правильно примерно в 0,5% случаев.  Использование одни и те же входные данные с SGD -классификатором дает около 80%, что говорит мне о том, что предварительная обработка и векторизация, которые я делаю, в порядке - это что -то особенное для классификатора RF.  Моя первая реакция состояла в том, чтобы искать переживание, но даже когда я запускаю модель на данных  < /em>, все равно становится почти все не так. < /P>

Я играл с количеством деревьев и объемом учебных данных, но это, казалось, не сильно изменилось для меня. Я пытаюсь показать только соответствующий код, но могу опубликовать больше, если это полезно.  Сначала так публикуйте, так что все мысли и отзывы оцениваются. < /P>

#pull in package to create word occurence vectors for each line
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(min_df=1,charset_error='ignore')
X_train = vectorizer.fit_transform(train_file)
#convert to dense array, the required input type for random forest classifier
X_train = X_train.todense()

#pull in random forest classifier and train on data
from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier(n_estimators = 100, compute_importances=True)
clf = clf.fit(X_train, train_targets)

#transform the test data into the vector format
testdata = vectorizer.transform(test_file)
testdata = testdata.todense()

#export
with open('output.csv', 'wb') as csvfile:
spamwriter = csv.writer(csvfile)
for item in clf.predict(testdata):
spamwriter.writerow([item])
 

Подробнее здесь: [url]https://stackoverflow.com/questions/21963486/troubleshooting-random-forests-classifier-in-sci-kit-learn[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Модель классификатора Scikit-Learn возвращает все нулы

Последнее сообщение Anonymous « 18 июн 2025, 19:22
Добавлено в форуме Python

Anonymous » 18 июн 2025, 19:22 » в форуме Python

Итак, я пытаюсь обучить модель randomforestclassifier. Однако, когда я тренируюсь, это дает мне все нулы. И я действительно не могу понять, почему. Набор данных огромный (ближе к 75 0000 рядам), поэтому я немного потерян. Вот код. :
import pandas...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
18 июн 2025, 19:22
Модель классификатора Scikit-Learn возвращает все нулы

Последнее сообщение Anonymous « 19 июн 2025, 13:43
Добавлено в форуме Python

Anonymous » 19 июн 2025, 13:43 » в форуме Python

Итак, я пытаюсь обучить модель randomforestclassifier. Однако, когда я тренируюсь, это дает мне все нулы. И я действительно не могу понять, почему. Набор данных огромный (ближе к 75 0000 рядам), поэтому я немного потерян. Вот код. :
import pandas...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
19 июн 2025, 13:43
Модель классификатора Scikit-Learn возвращает все нулы

Последнее сообщение Anonymous « 19 июн 2025, 16:52
Добавлено в форуме Python

Anonymous » 19 июн 2025, 16:52 » в форуме Python

Итак, я пытаюсь обучить модель randomforestclassifier. Однако, когда я тренируюсь, это дает мне все нулы. И я действительно не могу понять, почему. Набор данных огромный (ближе к 75 0000 рядам), поэтому я немного потерян. Вот код. :
import pandas...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
19 июн 2025, 16:52
Устранение неисправностей фатальной ошибки «Объявления класса не могут быть вложены» в PHP

Последнее сообщение Anonymous « 29 май 2025, 21:25
Добавлено в форуме Php

Anonymous » 29 май 2025, 21:25 » в форуме Php

Fatal error: Class declarations may not be nested in C:\wamp64\www\Badu\wp-content\plugins\astra-addon\admin\bsf-core\classes\class-bsf-rollback-version.php on line 231
Call Stack
# Time Memory Function Location
1 0.0277 446320 {main}( )...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
29 май 2025, 21:25
Снижение точности классификатора обучения scikit после инициализации веса

Последнее сообщение Anonymous « 28 июн 2024, 03:01
Добавлено в форуме Python

Anonymous » 28 июн 2024, 03:01 » в форуме Python

Я хочу реализовать базу классификатора adaboost на классификаторе sklearn, на первом этапе классификатора alg я должен инициализировать вес как «1 / # данные поезда»
но это снизит точность классификатора, я не могу понять это почему? (Я установил...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
28 июн 2024, 03:01

Вернуться в «Python»