Проблемы с выравниванием факторов по бутстрапам в анализе главных факторов из-за смены знаков и замены факторов

Проблемы с выравниванием факторов по бутстрапам в анализе главных факторов из-за смены знаков и замены факторов ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Проблемы с выравниванием факторов по бутстрапам в анализе главных факторов из-за смены знаков и замены факторов

Цитата

Сообщение Anonymous » 18 сен 2024, 16:41

Я выполняю бутстреп-анализ главного фактора (PFA) для набора данных и сталкиваюсь с серьезными проблемами при выравнивании факторов в бутстреп-выборках из-за смены знаков и замены факторов, особенно с факторами 3 и 4.
Проблема:
Переключение знаков: знаки факторных нагрузок произвольно меняются между бутстреп-выборками, что затрудняет агрегирование результатов.
Обмен факторами: факторы 3 и 4 часто меняют местами между бутстрапами, что приводит к несовпадающим назначениям.
Проблемы агрегирования. Эти несоответствия приводят к бимодальному распределению значений нагрузки при построении гистограмм по бутстрапам, что указывает на несовпадение.
Подходы, которые я пробовал:
Выравнивание знаков по ссылке:
Использовался первый образец начальной загрузки в качестве эталона.
Перевернуты знаки факторов в последующих бутстрапах, если более половины знаки различались.
Проблема: Не удалось полностью решить проблему; факторы по-прежнему были присвоены неправильно.
Венгерский алгоритм с затратами на основе корреляции:
Рассчитаны абсолютные корреляции между бутстрап-факторами и эталонными факторами.
Используется отрицательные абсолютные корреляции как затраты на задачу назначения.
Скорректированы знаки в зависимости от знака корреляции.
Проблема: факторы 3 и 4 по-прежнему перепутаны в программах начальной загрузки.
Факторы кластеризации:
Собраны все факторы из всех бутстрапов.
Стандартизированы и кластеризованы с использованием кластеризации K-Means.
Переупорядочены факторы на основе назначений кластера.Скорректированы знаки для совмещения с центрами кластеров.
Проблема: факторы остались несовмещенными; кластеризация не привела к согласованному назначению факторов.
Фрагмент кода:
Вот последняя версия моей функции post_process, использующая подход кластеризации:

Код: Выделить всё

def post_process(results, sample_id, data):
import numpy as np
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

# Number of factors
n_factors = results['loadings'][0].shape[1]

# Collect all factors from all bootstraps
all_loadings = []
for idx in range(len(results['loadings'])):
loadings = results['loadings'][idx].copy()

# Ensure consistent sign (e.g., largest absolute loading is positive)
for i in range(loadings.shape[1]):
max_abs_index = np.argmax(np.abs(loadings[:, i]))
if loadings[max_abs_index, i] < 0:
loadings[:, i] *= -1

# Transpose to have factors as rows
all_loadings.append(loadings.T)

# Stack all factors
all_loadings = np.vstack(all_loadings)

# Standardize the factors
scaler = StandardScaler()
all_loadings_scaled = scaler.fit_transform(all_loadings)

# Perform clustering
kmeans = KMeans(n_clusters=n_factors, random_state=0)
cluster_labels = kmeans.fit_predict(all_loadings_scaled)

# Assign cluster labels back to factors
factor_idx = 0
for idx in range(len(results['loadings'])):
loadings = results['loadings'][idx]
scores = results['scores'][idx]
n_factors_in_sample = loadings.shape[1]

# Get cluster labels for the current sample's factors
cluster_ids = cluster_labels[factor_idx:factor_idx + n_factors_in_sample]
factor_idx += n_factors_in_sample

# Map clusters to consistent order
unique_clusters = np.unique(cluster_ids)
cluster_order = {cluster: i for i, cluster in enumerate(sorted(unique_clusters))}
ordered_indices = np.array([cluster_order[cluster_id] for cluster_id in cluster_ids])

# Reorder factors based on cluster labels
order = np.argsort(ordered_indices)
results['loadings'][idx] = loadings[:, order]
results['scores'][idx] = scores[:, order]

# Adjust signs to align with cluster centers
for i in range(n_factors_in_sample):
cluster_center = kmeans.cluster_centers_[cluster_ids[order[i]]]
loading = results['loadings'][idx][:, i]
if np.dot(loading, cluster_center) <  0:
results['loadings'][idx][:, i] *= -1
results['scores'][idx][:, i] *= -1

# Aggregation code follows...
# [Omitted for brevity]

Что я заметил:
Несмотря на эти усилия, факторы 3 и 4 по-прежнему меняются местами и не совпадают в разных бутстрапах.
Гистограммы значения нагрузки для этих факторов показывают бимодальное распределение.
Это говорит о том, что текущие методы не эффективно решают проблемы выравнивания факторов и смены знаков.
Мой вопрос:
Как я могу эффективно согласовать факторы в бутстреп-выборках в PFA, чтобы избежать переворота знаков и замены факторов, особенно когда факторы схожи и имеют тенденцию смешиваться (например, факторы 3 и 4 в моем случае)?
Существуют ли альтернативные методы или лучшие практики для обработки выравнивания факторов и смены знаков в бутстреп-факторном анализе?
Как я могу гарантировать, что каждый фактор последовательно назначается и подписывается в бутстреп-выборках для точного агрегирования?Есть ли способ справиться с факторами, которые по своей природе нестабильны или сильно коррелированы?
Любые идеи, предложения или примеры того, как решить эту проблему, будем очень признательны!

Подробнее здесь: https://stackoverflow.com/questions/789 ... s-due-to-s

1726666878

Anonymous

Я выполняю бутстреп-анализ главного фактора (PFA) для набора данных и сталкиваюсь с серьезными проблемами при выравнивании факторов в бутстреп-выборках из-за смены знаков и замены факторов, особенно с факторами 3 и 4.
Проблема:
Переключение знаков: знаки факторных нагрузок произвольно меняются между бутстреп-выборками, что затрудняет агрегирование результатов.
Обмен факторами: факторы 3 и 4 часто меняют местами между бутстрапами, что приводит к несовпадающим назначениям.
Проблемы агрегирования.  Эти несоответствия приводят к бимодальному распределению значений нагрузки при построении гистограмм по бутстрапам, что указывает на несовпадение.
Подходы, которые я пробовал:
Выравнивание знаков по ссылке:
Использовался первый образец начальной загрузки в качестве эталона.
Перевернуты знаки факторов в последующих бутстрапах, если более половины знаки различались.
Проблема: Не удалось полностью решить проблему; факторы по-прежнему были присвоены неправильно.
Венгерский алгоритм с затратами на основе корреляции:
Рассчитаны абсолютные корреляции между бутстрап-факторами и эталонными факторами.
Используется отрицательные абсолютные корреляции как затраты на задачу назначения.
Скорректированы знаки в зависимости от знака корреляции.
Проблема: факторы 3 и 4 по-прежнему перепутаны в программах начальной загрузки.
Факторы кластеризации:
Собраны все факторы из всех бутстрапов.
Стандартизированы и кластеризованы с использованием кластеризации K-Means.
Переупорядочены факторы на основе назначений кластера.Скорректированы знаки для совмещения с центрами кластеров.
Проблема: факторы остались несовмещенными; кластеризация не привела к согласованному назначению факторов.
Фрагмент кода:
Вот последняя версия моей функции post_process, использующая подход кластеризации:
[code]def post_process(results, sample_id, data):
import numpy as np
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

# Number of factors
n_factors = results['loadings'][0].shape[1]

# Collect all factors from all bootstraps
all_loadings = []
for idx in range(len(results['loadings'])):
loadings = results['loadings'][idx].copy()

# Ensure consistent sign (e.g., largest absolute loading is positive)
for i in range(loadings.shape[1]):
max_abs_index = np.argmax(np.abs(loadings[:, i]))
if loadings[max_abs_index, i] < 0:
loadings[:, i] *= -1

# Transpose to have factors as rows
all_loadings.append(loadings.T)

# Stack all factors
all_loadings = np.vstack(all_loadings)

# Standardize the factors
scaler = StandardScaler()
all_loadings_scaled = scaler.fit_transform(all_loadings)

# Perform clustering
kmeans = KMeans(n_clusters=n_factors, random_state=0)
cluster_labels = kmeans.fit_predict(all_loadings_scaled)

# Assign cluster labels back to factors
factor_idx = 0
for idx in range(len(results['loadings'])):
loadings = results['loadings'][idx]
scores = results['scores'][idx]
n_factors_in_sample = loadings.shape[1]

# Get cluster labels for the current sample's factors
cluster_ids = cluster_labels[factor_idx:factor_idx + n_factors_in_sample]
factor_idx += n_factors_in_sample

# Map clusters to consistent order
unique_clusters = np.unique(cluster_ids)
cluster_order = {cluster: i for i, cluster in enumerate(sorted(unique_clusters))}
ordered_indices = np.array([cluster_order[cluster_id] for cluster_id in cluster_ids])

# Reorder factors based on cluster labels
order = np.argsort(ordered_indices)
results['loadings'][idx] = loadings[:, order]
results['scores'][idx] = scores[:, order]

# Adjust signs to align with cluster centers
for i in range(n_factors_in_sample):
cluster_center = kmeans.cluster_centers_[cluster_ids[order[i]]]
loading = results['loadings'][idx][:, i]
if np.dot(loading, cluster_center) <  0:
results['loadings'][idx][:, i] *= -1
results['scores'][idx][:, i] *= -1

# Aggregation code follows...
# [Omitted for brevity]
[/code]
Что я заметил:
Несмотря на эти усилия, факторы 3 и 4 по-прежнему меняются местами и не совпадают в разных бутстрапах.
Гистограммы значения нагрузки для этих факторов показывают бимодальное распределение.
Это говорит о том, что текущие методы не эффективно решают проблемы выравнивания факторов и смены знаков.
Мой вопрос:
Как я могу эффективно согласовать факторы в бутстреп-выборках в PFA, чтобы избежать переворота знаков и замены факторов, особенно когда факторы схожи и имеют тенденцию смешиваться (например, факторы 3 и 4 в моем случае)?
Существуют ли альтернативные методы или лучшие практики для обработки выравнивания факторов и смены знаков в бутстреп-факторном анализе?
Как я могу гарантировать, что каждый фактор последовательно назначается и подписывается в бутстреп-выборках для точного агрегирования?Есть ли способ справиться с факторами, которые по своей природе нестабильны или сильно коррелированы?
Любые идеи, предложения или примеры того, как решить эту проблему, будем очень признательны! 

Подробнее здесь: [url]https://stackoverflow.com/questions/78998538/trouble-aligning-factors-across-bootstraps-in-principal-factor-analysis-due-to-s[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как использовать анализ главных компонентов (PCA) для анализа набора данных, состоящего из 300 образцов модельных данных

Последнее сообщение Anonymous « 21 сен 2023, 06:49
Добавлено в форуме Python

Anonymous » 21 сен 2023, 06:49 » в форуме Python

У меня есть 300 образцов данных о температуре и высоте, каждый размером 20x300. Каждый из этих образцов был создан с использованием различных характеристик. Эти 300 температурных профилей меняются в зависимости от высоты, что усложняет визуализацию...

0 Ответы

42 Просмотры

Последнее сообщение Anonymous
21 сен 2023, 06:49
Применимо ли анализ главных компонентов к функциям моментов Ху [закрыто]

Последнее сообщение Anonymous « 20 май 2024, 12:04
Добавлено в форуме C++

Anonymous » 20 май 2024, 12:04 » в форуме C++

Я пытаюсь улучшить результаты своего приложения для классификации изображений, которое использует моменты Ху в качестве функций, но когда я применяю pca, есть только одна функция, которая составляет дисперсию 0,95.
Я выполнил следующие шаги по...

0 Ответы

26 Просмотры

Последнее сообщение Anonymous
20 май 2024, 12:04
Discord.py, Shikimori API, есть ли способ получить информацию о главных героях аниме?

Последнее сообщение Anonymous « 03 окт 2024, 18:47
Добавлено в форуме Python

Anonymous » 03 окт 2024, 18:47 » в форуме Python

``BASE_URL =
def search_anime_by_title(title):
url = f {BASE_URL}/animes
params = { search : title, limit : 25}
headers = { User-Agent : }
response = requests.get(url, headers=headers, params=params)
if response.status_code == 200:
return...

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
03 окт 2024, 18:47
Поиск элементов управления внутри вложенных главных страниц

Последнее сообщение Anonymous « 10 янв 2025, 03:27
Добавлено в форуме C#

Anonymous » 10 янв 2025, 03:27 » в форуме C#

У меня есть главная страница, вложенная на два уровня. У него есть главная страница, и у этой главной страницы есть главная страница.

Когда я вставляю элементы управления в ContentPlaceHolder с именем «bcr» — мне нужно найти элементы управления вот...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
10 янв 2025, 03:27
Очистка шаблона регулярных выражений для замены подстановочных знаков

Последнее сообщение Anonymous « 17 окт 2024, 01:27
Добавлено в форуме Python

Anonymous » 17 окт 2024, 01:27 » в форуме Python

Мне нужна функция для очистки шаблонов регулярных выражений в Python, в частности для строк, которые могут содержать подстановочные знаки (%). Цель состоит в том, чтобы заменить эти подстановочные знаки % эквивалентом регулярного выражения .*?,...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
17 окт 2024, 01:27

Вернуться в «Python»