Попытка понять различия в взвешенных выходах логистической регрессии между StatsModels и RESERE и SRVYR PackagesPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Попытка понять различия в взвешенных выходах логистической регрессии между StatsModels и RESERE и SRVYR Packages

Сообщение Anonymous »

У меня есть вымышленный набор данных с взвешенным обследованием, который содержит информацию о цветах автомобилей респондентов и их ответе на вопрос «Мне нравится быстро водить». Я хотел бы выполнить регрессию, чтобы увидеть, изменяется ли вероятность немного с этим вопросом в зависимости от того, управляет ли респондент черный автомобиль. (Это не серьезный анализ; я просто представляю его с целью сравнения взвешенных регрессионных результатов в R и Python.) < /P>
Чтобы ответить на этот вопрос, я впервые забежал Взвешенная логистическая регрессия с использованием пакетов R's Survey и srvyr . Эта регрессия обеспечила тестовую статистику -1,18 для коэффициента цвета черного автомобиля и значение P 0,238. Однако, когда я запустил взвешенную логистическую регрессию в рамках StatsModels, я получил тестовую статистику -1,35 и значение P 0,177 для этого коэффициента. Я хотел бы понять, почему эти тестовые статистики различны, и делаю ли я какие -либо ошибки в своей настройке за любой тест, который мог бы объяснить это расхождение. Я удалил весовой компонент из каждого теста, мои тестовые статистики и значения P были почти идентичными. Следовательно, кажется, что эти две реализации по -разному обращаются с весами обследования. Тот же тетрадь, что и мой код Python.import pandas as pd
import statsmodels.formula.api as smf
import statsmodels.api as sm
%load_ext rpy2.ipython
%R library(dplyr)
%R library(srvyr)
%R library(survey)
%R library(broom)
import pandas as pd

df_car_survey = pd.read_csv(
'https://raw.githubusercontent.com/ifstudies/\
carsurveydata/refs/heads/main/car_survey.csv')

# Adding dummy columns for independent and dependent variables:

for column in ['Car_Color', 'Enjoy_Driving_Fast']:
df_car_survey = pd.concat([df_car_survey, pd.get_dummies(
df_car_survey[column], dtype = 'int', prefix = column)],
axis = 1)

df_car_survey.columns = [column.replace(' ', '_') for column in
df_car_survey.columns]

# Loading DataFrame into R and creating a survey design object:
# See https://tidy-survey-r.github.io/tidy-su ... ights.html
# for more details.
# This book was also inval
%Rpush df_car_survey
%R df_sdo % as_survey_design(\
weights = 'Weight')

print("Survey design object:")
%R print(df_sdo)

# Logistic regression in R:
# (This code was based on that found in
# https://tidy-survey-r.github.io/tidy-su ... eling.html )
%R logit_result

Подробнее здесь: https://stackoverflow.com/questions/794 ... ts-between
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»