Подход к проверке независимости на основе перестановок

Подход к проверке независимости на основе перестановок ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Подход к проверке независимости на основе перестановок

Цитата

Сообщение Anonymous » 14 май 2024, 22:55

Я работаю в непараметрической среде и хочу провести проверку независимости с использованием перестановок. Я использую случайный лес в качестве модели регрессии и имею следующий код:

Код: Выделить всё

 import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error

X = pd.read_csv("X_p.csv", delimiter=",", engine="c", index_col=0, low_memory=False)
Y = pd.read_csv("Y_p.csv", delimiter=",", engine="c", low_memory=False)

X = X.iloc[:, 1:]
Y = Y.iloc[:, 1:]

Y = Y['0'].values.ravel()

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.25, random_state=42)

rf_model = RandomForestRegressor(n_estimators=100,min_samples_split=5,max_depth=50, random_state=42)

original_mse = mean_squared_error(Y_train, rf_model.fit(X_train, Y_train).predict(X_train))

permuted_mse = []
for _ in range(10):  # Number of permutations
permuted_Y = np.random.permutation(Y_train)
permuted_mse.append(mean_squared_error(permuted_Y, rf_model.fit(X_train, permuted_Y).predict(X_train)))

# Step 6: Significance Testing based on MSE
p_value_mse = np.sum(permuted_mse > original_mse) / (len(permuted_mse)+1)

# Print results
print("Original MSE:", original_mse)
print("Permutation test p-value based on MSE:", p_value_mse)

выход:

Код: Выделить всё

Original MSE: 2.2922379491349436
Permutation test p-value based on MSE: 0.9090909090909091

Process finished with exit code 0

Просто выполнение 10 перестановок кода занимает довольно много времени и всегда возвращает очень высокое значение p (в основном все перестановленные mse больше исходного). В чем моя ошибка? Я пытался изменить параметры случайного леса, но, похоже, ничего не помогает.
Ссылки на данные:
Набор данных Y
Данные X установить

Подробнее здесь: https://stackoverflow.com/questions/784 ... dependence

1715716503

Anonymous

Я работаю в непараметрической среде и хочу провести проверку независимости с использованием перестановок. Я использую случайный лес в качестве модели регрессии и имею следующий код:
[code] import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error

X = pd.read_csv("X_p.csv", delimiter=",", engine="c", index_col=0, low_memory=False)
Y = pd.read_csv("Y_p.csv", delimiter=",", engine="c", low_memory=False)

X = X.iloc[:, 1:]
Y = Y.iloc[:, 1:]

Y = Y['0'].values.ravel()

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.25, random_state=42)

rf_model = RandomForestRegressor(n_estimators=100,min_samples_split=5,max_depth=50, random_state=42)

original_mse = mean_squared_error(Y_train, rf_model.fit(X_train, Y_train).predict(X_train))

permuted_mse = []
for _ in range(10):  # Number of permutations
permuted_Y = np.random.permutation(Y_train)
permuted_mse.append(mean_squared_error(permuted_Y, rf_model.fit(X_train, permuted_Y).predict(X_train)))

# Step 6: Significance Testing based on MSE
p_value_mse = np.sum(permuted_mse > original_mse) / (len(permuted_mse)+1)

# Print results
print("Original MSE:", original_mse)
print("Permutation test p-value based on MSE:", p_value_mse)
[/code]
выход:
[code]Original MSE: 2.2922379491349436
Permutation test p-value based on MSE: 0.9090909090909091

Process finished with exit code 0
[/code]
Просто выполнение 10 перестановок кода занимает довольно много времени и всегда возвращает очень высокое значение p (в основном все перестановленные mse больше исходного). В чем моя ошибка? Я пытался изменить параметры случайного леса, но, похоже, ничего не помогает.
Ссылки на данные:
Набор данных Y
Данные X установить 

Подробнее здесь: [url]https://stackoverflow.com/questions/78473414/permutation-based-approach-to-testing-independence[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как сопоставить набор результатов JDBC с DTO: подход на основе перечислений и общий подход

Последнее сообщение Anonymous « 09 окт 2024, 08:52
Добавлено в форуме JAVA

Anonymous » 09 окт 2024, 08:52 » в форуме JAVA

У меня была существующая реализация, в которой использовалось перечисление (EventRowMapper) для сопоставления столбцов набора результатов SQL непосредственно с полями в DTO (EventDTO). Этот подход работал, но требовал явного жесткого кодирования...

0 Ответы

33 Просмотры

Последнее сообщение Anonymous
09 окт 2024, 08:52
Как запускать задачи зависимости одновременно с задачами независимости и задачей внутри цикла for?

Последнее сообщение Anonymous « 06 дек 2024, 14:14
Добавлено в форуме Python

Anonymous » 06 дек 2024, 14:14 » в форуме Python

Я изучаю asyncio, и возникла проблема одновременного выполнения задач зависимости и задач независимости. До сих пор я не мог заставить это работать. Это мой код:
import asyncio
import random

def first_execution(choice):
if choice==1:
print(f First...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
06 дек 2024, 14:14
Как запускать задачи зависимости одновременно с задачами независимости и задачами внутри цикла for?

Последнее сообщение Anonymous « 06 дек 2024, 15:01
Добавлено в форуме Python

Anonymous » 06 дек 2024, 15:01 » в форуме Python

Я изучаю asyncio, и возникла проблема одновременного выполнения задач зависимости и задач независимости. До сих пор я не мог заставить это работать. Это мой код:
import asyncio
import random

def first_execution(choice):
if choice==1:
print(f First...

0 Ответы

33 Просмотры

Последнее сообщение Anonymous
06 дек 2024, 15:01
Как запускать задачи зависимости одновременно с задачами независимости и задачами внутри цикла for?

Последнее сообщение Anonymous « 06 дек 2024, 21:51
Добавлено в форуме Python

Anonymous » 06 дек 2024, 21:51 » в форуме Python

Я изучаю asyncio, и возникла проблема одновременного выполнения задач зависимости и задач независимости. До сих пор мне не удавалось заставить это работать. Это мой код:
import asyncio
import random

def first_execution(choice):
if choice==1:...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
06 дек 2024, 21:51
Как запускать задачи зависимости одновременно с задачами независимости и задачами внутри цикла for?

Последнее сообщение Anonymous « 06 дек 2024, 22:26
Добавлено в форуме Python

Anonymous » 06 дек 2024, 22:26 » в форуме Python

Я изучаю asyncio, и возникла проблема одновременного выполнения задач зависимости и задач независимости. До сих пор мне не удавалось заставить это работать. Это мой код:
import asyncio
import random

def first_execution(choice):
if choice==1:...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
06 дек 2024, 22:26

Вернуться в «Python»