Извлечение важности функции из деревьев решений (scikit-learn)

Извлечение важности функции из деревьев решений (scikit-learn) ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Извлечение важности функции из деревьев решений (scikit-learn)

Цитата

Сообщение Anonymous » 03 ноя 2024, 17:07

Я пытался понять важность функций, используемых в дереве решений, которое я смоделировал. Мне интересно узнать вес каждой функции, выбранной в узлах, а также самого термина. Мои данные представляют собой набор документов.
Это мой код для дерева решений, я изменил фрагмент кода из scikit-learn, который извлекает (http://scikit-learn.org/stable/auto_exa ... mportances .html):

Код: Выделить всё

from sklearn.feature_extraction.text import TfidfVectorizer

### Feature extraction
tfidf_vectorizer = TfidfVectorizer(stop_words=stopwords,
use_idf=True, tokenizer=None, ngram_range=(1,2))#ngram_range=(1,0)

tfidf_matrix = tfidf_vectorizer.fit_transform(data[:, 1])
terms = tfidf_vectorizer.get_features_names()
### Define Decision Tree and fit
dtclf = DecisionTreeClassifier(random_state=1234)

dt = data.copy()

y = dt["label"]
X = tfidf_matrix

fitdt = dtclf.fit(X, y)

from sklearn.datasets import load_iris
from sklearn import tree

### Visualize Devision Tree

with open('data.dot', 'w') as file:
tree.export_graphviz(dtclf, out_file = file, feature_names = terms)
file.close()

import subprocess
subprocess.call(['dot', '-Tpdf', 'data.dot', '-o' 'data.pdf'])

### Extract feature importance

importances = dtclf.feature_importances_

indices = np.argsort(importances)[::-1]

# Print the feature ranking
print('Feature Ranking:')

for f in range(tfidf_matrix.shape[1]):
if importances[indices[f]] > 0:
print("%d. feature %d (%f)" % (f + 1, indices[f], importances[indices[f]]))
print ("feature name: ", terms[indices[f]])

Прав ли я, предполагая, что использование term[indices[f]] (который является вектором термина признака) приведет к печати фактического термина признака используется для разделения дерева в определенном узле?
Дерево решений, визуализируемое с помощью GraphViz, имеет, например, X[30], я предполагаю, что это относится к числовой интерпретации термина функции . Как извлечь сам термин, чтобы проверить процесс, который я развернул в №1?

Обновленный код

Код: Выделить всё

fitdt = dtclf.fit(X, y)
with open(...):
tree.export_graphviz(dtclf, out_file = file, feature_names = terms)

Заранее спасибо

Подробнее здесь: https://stackoverflow.com/questions/342 ... ikit-learn

1730642825

Anonymous

Я пытался понять важность функций, используемых в дереве решений, которое я смоделировал. Мне интересно узнать вес каждой функции, выбранной в узлах, а также самого термина. Мои данные представляют собой набор документов.
Это мой код для дерева решений, я изменил фрагмент кода из scikit-learn, который извлекает (http://scikit-learn.org/stable/auto_examples/ensemble/plot_forest_importances .html):

[code]from sklearn.feature_extraction.text import TfidfVectorizer

### Feature extraction
tfidf_vectorizer = TfidfVectorizer(stop_words=stopwords,
use_idf=True, tokenizer=None, ngram_range=(1,2))#ngram_range=(1,0)

tfidf_matrix = tfidf_vectorizer.fit_transform(data[:, 1])
terms = tfidf_vectorizer.get_features_names()
### Define Decision Tree and fit
dtclf = DecisionTreeClassifier(random_state=1234)

dt = data.copy()

y = dt["label"]
X = tfidf_matrix

fitdt = dtclf.fit(X, y)

from sklearn.datasets import load_iris
from sklearn import tree

### Visualize Devision Tree

with open('data.dot', 'w') as file:
tree.export_graphviz(dtclf, out_file = file, feature_names = terms)
file.close()

import subprocess
subprocess.call(['dot', '-Tpdf', 'data.dot', '-o' 'data.pdf'])

### Extract feature importance

importances = dtclf.feature_importances_

indices = np.argsort(importances)[::-1]

# Print the feature ranking
print('Feature Ranking:')

for f in range(tfidf_matrix.shape[1]):
if importances[indices[f]] > 0:
print("%d. feature %d (%f)" % (f + 1, indices[f], importances[indices[f]]))
print ("feature name: ", terms[indices[f]])
[/code]

[list]
[*]Прав ли я, предполагая, что использование term[indices[f]] (который является вектором термина признака) приведет к печати фактического термина признака используется для разделения дерева в определенном узле?
[*]Дерево решений, визуализируемое с помощью GraphViz, имеет, например, X[30], я предполагаю, что это относится к числовой интерпретации термина функции . Как извлечь сам термин, чтобы проверить процесс, который я развернул в №1?
[/list]

Обновленный код

[code]fitdt = dtclf.fit(X, y)
with open(...):
tree.export_graphviz(dtclf, out_file = file, feature_names = terms)
[/code]

Заранее спасибо  

Подробнее здесь: [url]https://stackoverflow.com/questions/34239355/feature-importance-extraction-of-decision-trees-scikit-learn[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как правильно использовать RFECV для выбора функций в трубопроводе Scikit-Learn с простым деревом решений?

Последнее сообщение Anonymous « 03 апр 2025, 08:57
Добавлено в форуме Python

Anonymous » 03 апр 2025, 08:57 » в форуме Python

Я работаю над конкурсом прогнозирования цен на цены Kaggle и создал трубопровод Scikit-Learn, который включает в себя:
Предварительная обработка (обработка пропущенных значений, масштабирование, кодирование)
Инженерная инженерия
incoding...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
03 апр 2025, 08:57
Особенность значения извлечения деревьев решений

Последнее сообщение Anonymous « 10 мар 2025, 05:10
Добавлено в форуме Python

Anonymous » 10 мар 2025, 05:10 » в форуме Python

Я пытался понять важность функций, используемых в дереве решений, которые я смоделировал. Я заинтересован в обнаружении веса каждой функции, выбранной в узлах, а также сам термин. Мои данные-куча документов.
Это мой код для дерева решений, я...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
10 мар 2025, 05:10
DARTS и LightgBM: Имена исходных столбцов не могут быть получены для важности функции

Последнее сообщение Anonymous « 24 апр 2025, 14:30
Добавлено в форуме Python

Anonymous » 24 апр 2025, 14:30 » в форуме Python

проблема
Я использую Lightgbmmodel через дротики с некоторыми (будущими) ковариатами. Я хочу понять актуальность различных (отстающих) функций. В объекте модели LightGBM после подгонки я могу увидеть только общие имена столбцов ( column_0 ,...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
24 апр 2025, 14:30
Как вручную выбрать функции для регрессии модели Scikit-Learn

Последнее сообщение Anonymous « 23 сен 2023, 07:00
Добавлено в форуме Python

Anonymous » 23 сен 2023, 07:00 » в форуме Python

Это очень простой вопрос, поэтому я надеялся получить простой ответ. Подозреваю, что упускаю что-то очевидное...

В Scikit-learn существуют различные методы автоматического выбора функций.

Например

my_feature_selector =...

0 Ответы

75 Просмотры

Последнее сообщение Anonymous
23 сен 2023, 07:00
Автоматизированное принятие решений с использованием классификатора дерева решений

Последнее сообщение Anonymous « 14 авг 2025, 13:03
Добавлено в форуме Python

Anonymous » 14 авг 2025, 13:03 » в форуме Python

Я пытаюсь кодировать процесс принятия решений, который в противном случае требует обширных сценариев, если иначе, и мне интересно, можно ли выразить весь процесс в форме корня, решения и оставить узлы в классификаторе дерева решений Scikit Learn....

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
14 авг 2025, 13:03

Вернуться в «Python»