Случайный лес имеет очень низкую производительность [закрыто]

Случайный лес имеет очень низкую производительность [закрыто] ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Случайный лес имеет очень низкую производительность [закрыто]

Цитата

Сообщение Anonymous » 24 июл 2024, 22:15

Я работаю над базовым классификатором случайного леса, но в настоящее время у меня крайне низкие результаты, и я не знаю почему.
Мой набор данных представляет собой список из двух столбцов, около 20 тысяч строк. .
Столбец 1 — FromNodeId
Столбец 2 — ToNodeId
Предполагается, что узлы представляют автора и их соавтор. Учитывая автора, мы хотим предсказать, с кем он будет сотрудничать.
Это мой код

Код: Выделить всё

#FOLLOWING CODE SEEMS TO BE WORKING GOOD LOCALLY! WILL PROBABLY TURN THIS ONE IN!
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import sklearn
import warnings

from sklearn.preprocessing import LabelEncoder
from sklearn.impute import KNNImputer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import f1_score
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.tree import plot_tree
from sklearn.metrics import accuracy_score

warnings.filterwarnings('ignore')

df = pd.read_csv(r"CA-GrQc.txt", sep="\t", header=None, skiprows=4, usecols=[0,1])
df.info()

X = df.iloc[:,0:1].values #features
y = df.iloc[:,1].values #target variable

# Check for and handle categorical variables
label_encoder = LabelEncoder()
x_categorical = df.select_dtypes(include=['object']).apply(label_encoder.fit_transform)
x_numerical = df.select_dtypes(exclude=['object']).values
x = pd.concat([pd.DataFrame(x_numerical), x_categorical], axis=1).values

del df

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state=42)

# Fitting Random Forest Classifier to the dataset
rf_classifier = RandomForestClassifier(n_estimators = 100, random_state = 42, max_depth=10)

# Fit the regressor with x and y data
rf_classifier.fit(X_train, y_train)
y_pred = rf_classifier.predict(X_test)

# Evaluating the model
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse}')

r2 = r2_score(y_test, y_pred)
print(f'R-squared: {r2}')

# Calculate the absolute errors
errors = abs(y_pred - y_test)
# Calculate mean absolute percentage error (MAPE)
mape = 100 * (errors / y_test)
# Calculate and display accuracy
accuracy = 100 - np.mean(mape)
print('Accuracy:', round(accuracy, 2), '%.')

Вот результаты

Код: Выделить всё

Mean Squared Error: 104365042.85075915
R-squared: -0.831195262553108
Accuracy: -398.14 %.

Локальный запуск этого кода требует выделения не менее 5 ГБ, и мне приходится уменьшать параметры, ограничивая глубину. По какой-то причине запуск занимает около 10 минут. Вот образец текстового файла

Код: Выделить всё

# Directed graph (each unordered pair of nodes is saved once): CA-GrQc.txt
# Collaboration network of Arxiv General Relativity category (there is an edge if authors coauthored at least one paper)
# Nodes: 5242 Edges: 28980
# FromNodeId    ToNodeId
3466    937
3466    5233
3466    8579
3466    10310
3466    15931
3466    17038

Я ожидаю точности не менее 50 %, но значение -400 % меня смущает. Я переписывал классификатор несколько раз, но он продолжает работать плохо. Что мне не хватает?

Подробнее здесь: https://stackoverflow.com/questions/787 ... g-very-low

1721848507

Anonymous

Я работаю над базовым классификатором случайного леса, но в настоящее время у меня крайне низкие результаты, и я не знаю почему.
Мой набор данных представляет собой список из двух столбцов, около 20 тысяч строк. .
Столбец 1 — FromNodeId
Столбец 2 — ToNodeId
Предполагается, что узлы представляют автора и их соавтор. Учитывая автора, мы хотим предсказать, с кем он будет сотрудничать.
Это мой код
[code]#FOLLOWING CODE SEEMS TO BE WORKING GOOD LOCALLY! WILL PROBABLY TURN THIS ONE IN!
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import sklearn
import warnings

from sklearn.preprocessing import LabelEncoder
from sklearn.impute import KNNImputer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import f1_score
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.tree import plot_tree
from sklearn.metrics import accuracy_score

warnings.filterwarnings('ignore')

df = pd.read_csv(r"CA-GrQc.txt", sep="\t", header=None, skiprows=4, usecols=[0,1])
df.info()

X = df.iloc[:,0:1].values #features
y = df.iloc[:,1].values #target variable

# Check for and handle categorical variables
label_encoder = LabelEncoder()
x_categorical = df.select_dtypes(include=['object']).apply(label_encoder.fit_transform)
x_numerical = df.select_dtypes(exclude=['object']).values
x = pd.concat([pd.DataFrame(x_numerical), x_categorical], axis=1).values

del df

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state=42)

# Fitting Random Forest Classifier to the dataset
rf_classifier = RandomForestClassifier(n_estimators = 100, random_state = 42, max_depth=10)

# Fit the regressor with x and y data
rf_classifier.fit(X_train, y_train)
y_pred = rf_classifier.predict(X_test)

# Evaluating the model
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse}')

r2 = r2_score(y_test, y_pred)
print(f'R-squared: {r2}')

# Calculate the absolute errors
errors = abs(y_pred - y_test)
# Calculate mean absolute percentage error (MAPE)
mape = 100 * (errors / y_test)
# Calculate and display accuracy
accuracy = 100 - np.mean(mape)
print('Accuracy:', round(accuracy, 2), '%.')
[/code]
Вот результаты
[code]Mean Squared Error: 104365042.85075915
R-squared: -0.831195262553108
Accuracy: -398.14 %.
[/code]
Локальный запуск этого кода требует выделения не менее 5 ГБ, и мне приходится уменьшать параметры, ограничивая глубину. По какой-то причине запуск занимает около 10 минут. Вот образец текстового файла
[code]# Directed graph (each unordered pair of nodes is saved once): CA-GrQc.txt
# Collaboration network of Arxiv General Relativity category (there is an edge if authors coauthored at least one paper)
# Nodes: 5242 Edges: 28980
# FromNodeId    ToNodeId
3466    937
3466    5233
3466    8579
3466    10310
3466    15931
3466    17038
[/code]
Я ожидаю точности не менее 50 %, но значение -400 % меня смущает. Я переписывал классификатор несколько раз, но он продолжает работать плохо. Что мне не хватает? 

Подробнее здесь: [url]https://stackoverflow.com/questions/78789102/random-forest-performing-very-low[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Случайный лес имеет очень низкую производительность [закрыто]

Последнее сообщение Anonymous « 24 июл 2024, 17:55
Добавлено в форуме Python

Anonymous » 24 июл 2024, 17:55 » в форуме Python

Я работаю над базовым классификатором случайного леса, но в настоящее время у меня крайне низкие результаты, и я не знаю почему.
Мой набор данных представляет собой список из двух столбцов, около 20 тысяч строк. .
Столбец 1 — FromNodeId
Столбец 2 —...

0 Ответы

26 Просмотры

Последнее сообщение Anonymous
24 июл 2024, 17:55
Случайный лес получает 100% балл с момента выбора функций [закрыто]

Последнее сообщение Anonymous « 25 июн 2025, 04:46
Добавлено в форуме Python

Anonymous » 25 июн 2025, 04:46 » в форуме Python

Я работал над набором данных. Я следовал этому процессу для прогнозирования оттока:

кодируемые и стандартизированные данные

Запуск случайного леса

Получил модель 0,63

анализ. Набор функций

Получил модель 1,0 в пересмотренной модели...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
25 июн 2025, 04:46
Подача глубоких функций в классификаторы машинного обучения (случайный лес)

Последнее сообщение Anonymous « 12 окт 2024, 20:08
Добавлено в форуме Python

Anonymous » 12 окт 2024, 20:08 » в форуме Python

Я хочу передать свои глубокие функции CNN традиционному классификатору, то есть случайному лесу. Я не хочу использовать MLP (многослойный персептрон) для классификации моей проблемы, но мне нужен другой классификатор. У меня есть данные изображений....

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
12 окт 2024, 20:08
Случайный лес переосмысливается

Последнее сообщение Anonymous « 05 фев 2025, 14:05
Добавлено в форуме Python

Anonymous » 05 фев 2025, 14:05 » в форуме Python

Я использую Scikit-learn с стратифицированным CV, чтобы сравнить некоторые классификаторы.
Я вычисляю: точность, отзыв, AUC.

Я использовал для оптимизации параметров gridsearchcv с 5 CV.

RandomForestClassifier(warm_start= True, min_samples_leaf=...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
05 фев 2025, 14:05
Когда я должен использовать случайный лес вместо XGBOOST, и наоборот?

Последнее сообщение Anonymous « 25 апр 2025, 13:16
Добавлено в форуме Python

Anonymous » 25 апр 2025, 13:16 » в форуме Python

Я использовал как случайный лес, так и Xgboost для классификационных задач. В большинстве случаев я замечаю, что XGBOOST дает немного лучшую точность. Тем не менее, я не уверен в конкретных сценариях, в которых одна модель может быть предпочтительна...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
25 апр 2025, 13:16

Вернуться в «Python»