Как использовать значения SHAP для ЭЭГ-биомаркеров и важности признаков? - Цифровое Кемерово

Как использовать значения SHAP для ЭЭГ-биомаркеров и важности признаков? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как использовать значения SHAP для ЭЭГ-биомаркеров и важности признаков?

Цитата

Сообщение Anonymous » 29 май 2024, 09:28

Чем я занимаюсь:
Я анализирую различные биомаркеры на основе данных ЭЭГ с помощью разных алгоритмов машинного обучения, различных этапов предварительной обработки и т. д. В результате получается несколько моделей для каждой комбинации этап и алгоритм предварительной обработки.
Каждая модель обучается с использованием StratifiedGroupKFold, всего 6 сгибов.
Каждый сгиб сохраняется в виде библиотеки заданий под именем .joblib
Биомаркеры:
Каждая полоса сигнала ЭЭГ имеет ряд биомаркеров. Эти биомаркеры, в свою очередь, состоят из всех сигналов со всех электродов ЭЭГ. Таким образом, биомаркер состоит из нескольких функций, которые нельзя разделять (каждый биомаркер должен содержать все данные электрода).
Что я хотел бы сделать:
В моем первом подходе я обучил каждую модель всем биомаркерам. Теперь я хотел бы использовать важность функции, чтобы выяснить, можно ли опустить некоторые из них.
Для этого я хотел бы рассмотреть каждый шаг предварительной обработки и каждую модель.
Мне рекомендовали SHAP, но моя проблема в том, что я не знаю, как суммировать складки и каналы каждого биомаркера.
Вот моя первая попытка хотя бы суммировать складки (для примера я только используя все складки одной модели):

Код: Выделить всё

for i, (train_index, test_index) in enumerate(sgkf.split(X, y, groups)):
X_test, y_test = X.iloc[test_index], y.iloc[test_index]

# Modell
fold_file = fold_files[i]
clf = joblib.load(fold_file)

# SHAP-Explainer
explainer = shap.LinearExplainer(clf, X_test)
shap_values = explainer.shap_values(X_test)
sv = explainer(X_test)

all_shap_values.append(shap_values)

shap_values_stacked = np.vstack([sv[1] for sv in all_shap_values])
shap_values_mean = np.abs(shap_values_stacked).mean(0)
importance_df = pd.DataFrame({
"feature": columns,
"shap_values": shap_values_mean
})

Сначала я попробовал это с помощью объяснения.shap_values, потому что это показалось мне самым простым способом. Но тогда я не могу это построить, мне нужен sv = expalliner(X).
Мой вопрос разделен на 2 части:

как суммировать складки? (среднее значение?)
как сгруппировать каналы каждого биомаркера? Могу ли я добавить значения или исказлю результат?

(Биомаркеры названы таким образом, что я могу легко идентифицировать каналы )
Заранее спасибо!

Подробнее здесь: https://stackoverflow.com/questions/785 ... importance

Реклама

1716964082

Anonymous

[b]Чем я занимаюсь:[/b]
Я анализирую различные биомаркеры на основе данных ЭЭГ с помощью разных алгоритмов машинного обучения, различных этапов предварительной обработки и т. д. В результате получается несколько моделей для каждой комбинации этап и алгоритм предварительной обработки.
Каждая модель обучается с использованием StratifiedGroupKFold, всего 6 сгибов.
Каждый сгиб сохраняется в виде библиотеки заданий под именем  .joblib
[b]Биомаркеры:[/b]
Каждая полоса сигнала ЭЭГ имеет ряд биомаркеров. Эти биомаркеры, в свою очередь, состоят из всех сигналов со всех электродов ЭЭГ. Таким образом, биомаркер состоит из нескольких функций, которые нельзя разделять (каждый биомаркер должен содержать все данные электрода).
[b]Что я хотел бы сделать:[/b]
В моем первом подходе я обучил каждую модель всем биомаркерам. Теперь я хотел бы использовать важность функции, чтобы выяснить, можно ли опустить некоторые из них.
Для этого я хотел бы рассмотреть каждый шаг предварительной обработки и каждую модель.
Мне рекомендовали SHAP, но моя проблема в том, что я не знаю, как суммировать складки и каналы каждого биомаркера.
Вот моя первая попытка хотя бы суммировать складки (для примера я только используя все складки одной модели):
[code]for i, (train_index, test_index) in enumerate(sgkf.split(X, y, groups)):
X_test, y_test = X.iloc[test_index], y.iloc[test_index]

# Modell
fold_file = fold_files[i]
clf = joblib.load(fold_file)

# SHAP-Explainer
explainer = shap.LinearExplainer(clf, X_test)
shap_values = explainer.shap_values(X_test)
sv = explainer(X_test)

all_shap_values.append(shap_values)

shap_values_stacked = np.vstack([sv[1] for sv in all_shap_values])
shap_values_mean = np.abs(shap_values_stacked).mean(0)
importance_df = pd.DataFrame({
"feature": columns,
"shap_values": shap_values_mean
})
[/code]
Сначала я попробовал это с помощью объяснения.shap_values, потому что это показалось мне самым простым способом. Но тогда я не могу это построить, мне нужен sv = expalliner(X).
Мой вопрос разделен на 2 части:
[list][*]как суммировать складки? (среднее значение?)
[*]как сгруппировать каналы каждого биомаркера? Могу ли я добавить значения или исказлю результат?
[/list]
(Биомаркеры названы таким образом, что я могу легко идентифицировать каналы  )
Заранее спасибо! 

Подробнее здесь: [url]https://stackoverflow.com/questions/78547686/how-to-use-shap-values-for-eeg-biomarker-and-feature-importance[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Tsfresh – Как назначить вычисленные значения признаков всем строкам, принадлежащим к группе, аналогичной pd.df.groupby.t

Последнее сообщение Anonymous « 22 май 2024, 07:51
Добавлено в форуме Python

Anonymous » 22 май 2024, 07:51 » в форуме Python

Tsfresh помогает вычислить множество полезных функций из входного DataFrame (df). Но я ищу что-то похожее на pd.df.groupby.transform, которое позволяет мне вычислять объекты для каждой группы и помогает присваивать в новом столбце значение...

0 Ответы

29 Просмотры

Последнее сообщение Anonymous
22 май 2024, 07:51
Почему мой iframe не прокручивается должным образом после применения важности к CSS с переполнением

Последнее сообщение Anonymous « 05 мар 2024, 05:08
Добавлено в форуме CSS

Anonymous » 05 мар 2024, 05:08 » в форуме CSS

After adding overflow-y: scroll !important to the iframe's css, I am still unable to achieve the y-axis scrollbar feature. It's a major problem due to a form within the iframe which cannot be completed due to its contents being cut off.

HTML...

0 Ответы

32 Просмотры

Последнее сообщение Anonymous
05 мар 2024, 05:08
Привет, пожалуйста, пройдите опрос для моего исследовательского проекта о важности сложных паролей в жизни пользователей

Последнее сообщение Anonymous « 07 окт 2024, 19:14
Добавлено в форуме JAVA

Anonymous » 07 окт 2024, 19:14 » в форуме JAVA

Здесь:

Вы окажете большую помощь мне, спасибо.
Вот ссылка, пожалуйста, пройдите опрос для моего исследовательского проекта о важности правильного хранения паролей и их сложности, потому что большинство пользователей игнорируют это. Не используя...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
07 окт 2024, 19:14
Привет, пожалуйста, пройдите опрос для моего исследовательского проекта о важности сложных паролей в жизни пользователей

Последнее сообщение Anonymous « 07 окт 2024, 19:14
Добавлено в форуме Python

Anonymous » 07 окт 2024, 19:14 » в форуме Python

Здесь:

Вы окажете большую помощь мне, спасибо.
Вот ссылка, пожалуйста, пройдите опрос для моего исследовательского проекта о важности правильного хранения паролей и их сложности, потому что большинство пользователей игнорируют это. Не используя...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
07 окт 2024, 19:14
Извлечение важности функции из деревьев решений (scikit-learn)

Последнее сообщение Anonymous « 03 ноя 2024, 17:07
Добавлено в форуме Python

Anonymous » 03 ноя 2024, 17:07 » в форуме Python

Я пытался понять важность функций, используемых в дереве решений, которое я смоделировал. Мне интересно узнать вес каждой функции, выбранной в узлах, а также самого термина. Мои данные представляют собой набор документов.
Это мой код для дерева...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
03 ноя 2024, 17:07

Вернуться в «Python»

Programmiererforum