Barro QJE 1991 年的那篇Economic Growth in a Cross Section of Countries里面这么写的
1) \log y_{i,t}-\log y_{i,t-1}=\beta_{0}+\beta_{1}\log y_{i,t-1}+\beta_{2}edu_{i,t-1}+\varepsilon_{i,t}
其中,y_{i,t} 是i国家在t时刻的人均gdp。加了log之后,\log y_{i,t}-\log y_{i,t-1} 就近似是i国家从t-1 到t时刻的人均gdp增长率。edu是一个衡量该国人力资本存量的变量,可用诸如该国有多少比例的人上过中学之类的变量来代替。

这就是OLS啊。

Barro regression高明的地方在于,在回归式里面首次加入了“教育”这一项,而“教育”这一项起到一个proxy variable的作用:用来代表各个国家的某种“自身特质”。

如果不加如edu这一项,\beta_1 t检验过不了,t检验过不了当然就发不了paper。但是Barro发现加入教育之后,\beta_1居然显著为负了,完全符合solow模型的预测!

这里提一下1)是怎么来的。1)不是瞎编的,是从Solow模型在均衡点的扰动推出来的(经过所谓的log-linearization),\beta_1<0 反映的是solow系统的收敛。原始的solow模型,推出来是这样的,
2)\log y_{i,t}-\log y_{i,t-1}=\beta_{0}+\beta_{1}\log y_{i,t-1}+u_{i,t}
人们OLS一下,发现\beta_{1}基本就是0啊,根本不收敛啊。为什么会这样呢?是因为误差项u 是会和自变量y 相关的。这个相关性正好抵消了回归系数。
更本质原因在于,原始solow模型的绝对convergence是不可能存在的,国家的经济发展会收敛到一个由国家自身特质决定的值上。这个“自身特质”是什么?Barro的研究说明教育水平,就是一个衡量这个“自身特质”的指标。所以当加入这个指标时,奇迹就发生了啊。

最后,说点题外话。Barro的这个发现后来明显有被滥用的趋势(部分原因也是这个发现太有名了),不少人直接把回归结果解释成:教育对国家发展有积极促进作用(证据就是\beta_{2}>0显著)。刚才说了,教育其实是起到proxy某种国家的“自身特质”的作用,这个“自身特质”,可能是文化、人们对工作积极的态度、政治清明、社会组织效率、上帝的眷顾、等等。这些因素都会正面影响教育,同时正面影响gdp增长率。所以这个统计模型是无法告诉我们因果关系的。

再后来,有两个大神Mark Bils and Peter J. Klenow 开始想这个问题:教育是不是直接促进了经济发展呢?他们在AER 2000 年写了Does schooling cause growth?有兴趣的可以参考这篇。他们经过大量数据工作,指出了这么一个违反人类直觉的结论:就是教育其实是被经济发展决定的,而不是决定经济发展。

— 完 —

本文作者:王相及

【知乎日报】
你都看到这啦,快来点我嘛 Σ(▼□▼メ)
延伸阅读:
数学家一般是怎么判断一个定理的证明过程是否正确的?
无常数项的线性多元回归模型和有常数项的线性多元回归模型有何区别?

分享到