Я уже знаю, как запустить diff-in-diff. Например, давайте рассмотрим набор данных njmin. Этот набор данных учитывает повышение минимальной заработной платы в Нью-Джерси. Прежде всего, извините за скриншоты, я знаю, что это не рекомендуется, но я думаю, что это будет здесь помощником. Здесь мы говорим о повышении минимальной заработной платы и его влиянии на уровень безработицы. Подробнее о проблеме вы можете узнать здесь. Я провел ols-регрессию, чтобы увидеть, влияет ли d_nj, который является результатом умножения d (после повышения минимальной заработной платы) и nj (если в Нью-Джерси), на fte, который представляет собой сотрудников, работающих полный рабочий день. По сути, мы хотим знать, повлияло ли изменение минимальной заработной платы на уровень безработицы.
Код: Выделить всё
import pandas as pd
import statsmodels.formula.api as smf
import statsmodels.api as sm
df = pd.read_csv('/njmin3.csv')
model = smf.ols(formula = "fte ~ d_nj + kfc + roys + wendys \
+ CO_OWNED + SOUTHJ + CENTRALJ + PA1", data = df).fit()
print(model.summary())

Как видите, у нас есть модель различий, позволяющая увидеть, повлияло ли повышение минимальной заработной платы в Нью-Джерси на уровень безработицы. d_nj не имел существенного значения.
Теперь, если у меня много городов, много точек данных и я хочу включить фиксированные эффекты. Что я могу сделать?
Подробнее здесь: https://stackoverflow.com/questions/664 ... -in-python
Мобильная версия