这个问题其实蛮有意思,尤其是问题补充:
“人类应该对大自然展现的玄奥规律保持敬畏,而不是妄自否定~!!!
好吧,面对两组重合的数据,如何科学的判定其中的相关性,简单的一句“海盗和气候没有相关性”是没法让人信服的。”
我觉得问题的关键不是“妄自否定”,而是他首先“妄自肯定”了一个非常弱的观点。人如果对大自然的奥秘保持敬畏的话,就不要以自己的弱智来展示虔诚。因为智力低的人巫医神汉都信,只有建立在高智力的反思之上的信仰才称得上“敬畏”不是嘛?
所以对大自然保持敬畏,最好的方法就是认认真真的去思考,去研究,而不是轻易接受简单相关性之下粗暴的结论。
然而人类傲慢的一大表现,就是所谓的“把相关性当做因果性”,这个问题在科学哲学上也是无法解决的,所以逻辑证实主义的信念垮台了,此后的证伪主义、范式论和科学纲领理论,都不再把寻找“本质规律”作为科学的目的,而是强调其有用性。虽然在最形而上的层次上,因果关系是我们永远无法确知的,然而在比较实用的领域,作为一种对“非常有用的相关性”的近似,因果性还是可以谈的,更不用说有些哲学家把因果律作为人类先天的,看待世界的“眼睛”。
对因果性的慎言,是科学上的严谨,例如用球杆击打台球,一个球碰到另一个球,另一个球跌入球洞,普通人很难相信这没有因果关系,然而最挑剔的科学家会说,这只是我们的经验,我们永远无法知晓,下一次挥舞球杆的时候球不会径直飞到天上,而前边的经验不过是一个能使万物任意运行的魔鬼给我们开的一个玩笑。基于经验得到的结论,并不能保证一直正确下去,然而有一些因果性,却连“经验”都没有基于。
例如这个所谓的“海盗数量减少导致了全球变暖”。
我们有得出这个结论的经验吗?貌似有,因为我们有一个时间序列上的数据支持。然而其实没有,因为这个数据是具有欺骗性的。类似荒谬的统计规律有太多太多,例如裙子变短导致经济越景气。
相关性不代表因果性,这句话很多人喜欢说,但是这不代表我们无法甄别真正的因果关系和虚伪的相关关系,尤其是这种显然的谬误。
有一些读过点书的半吊子,例如逻辑思维,听到一些奇特的相关性,不禁大惊小怪,认为人类的认知方式和知识体系都完蛋了,殊不知其实已经发展出一套可以很好解决这种问题的方法了。
关键问题在于什么?在于没有保证“其他情况不变”。
也就是气候和海盗的关系,不能排除是影响气候的其他因素也在影响海盗,例如我举一个非常非常不科学的例子,由于工业化的发展导致气候变暖,又由于工业化的发展导致人们防范海盗的技术提高或者当海盗的机会成本提高(不当海盗去找工作活的更好),于是海盗减少了,那么海盗和气候的关系就不能判定为因果了。
因为没有保证工业化水平不变。
由于我们在研究两个变量之间的关系,我们不想要其他变量来影响我们的结论,所以需要有严格的控制实验,如果没有条件控制住其他情况不变,那么我们的结论就是扯淡。这个在自然科学领域是没有争议的。
然而在社会科学领域,进行控制实验是非常困难的。从海盗的例子说,只有你有足够的钱,就可以在一天的时间内自己花钱雇非常多的人去当海盗,以至于海盗数量急剧提升,(或者花更大的人力物力去剿灭海盗)这时候你测测这一天温度有什么变化,由于一天的时间工业化的变化可以忽略不计,所以也算是控制了工业化水平。
然而社会科学的很多领域进行这种控制实验都无法,或者成本巨大。例如研究教育对其他特质完全相同的人的收入水平的影响,如果故意让控制组少受教育,起码是不人道的,更何况如何保证其他特质完全相同呢?
退而求其次,如果足够幸运,通过数据分析也可以模拟一个“其他条件不变”的环境。
例如,我们知道只要样本足够,通过最小二乘回归能够得到一个线性无偏方差最小的估计(blue),我们也知道blue要求满足高斯马尔可夫定理。很多中级计量教材致力于复杂的矩阵推导,但是不会告诉你这种假设的方法论意义,好在作为一本初级教科书的伍德里奇的《导论》把这些问题说清楚了。
例如一个非常重要的假设,扰动项均值独立于解释变量。
这句话什么意思?你做回归的时候用海盗数量去解释气温,这时候未被海盗数量解释的影响气温的力量就变成扰动项,例如我们没有包括工业化水平。扰动项均值独立于解释变量,也就是不管工业化水平如何,海盗数量对气温的解释都是相同的。这就保证了我们控制了工业化水平对气温的影响。但是假如这个条件不满足呢?那你的回归就是有偏的,例如你发现随着工业化水平的提高,海盗数量的减少对气温升高的影响也在上升,说明你这个因果关系找错了。
所以你做了一个气候和海盗数的回归,发现系数为负且显著,于是你赶紧得出结论:海盗数量的减少对气候有影响。但是且慢,请加入其他影响气候的因素,看看这时候海盗的系数还是为负且显著吗。
因为加入其他变量做回归,就相当于先对这些变量回归,然后用海盗数回归残差,去解释气候变化中未被这些变量所解释的部分,也就是虚拟了一个其他条件不变的环境,只考虑一个变量变化的偏效应。
(令气温=a*海盗数量+b*工业化水平+扰动项,则
气温的变化=a*海盗数量的变化+b*工业化水平的变化,
当工业化水平的变化=0时,我们有:
气温的变化=a*海盗数量的变化
因此a可以看做控制工业化水平不变的情况下,海盗数量的变化对气候的变化的偏效应)
从这个例子看,我们可以以气候为被解释变量,以海盗数量和工业化水平为解释变量,这样就如同先用工业化去解释气候,再用海盗数量去解释那些未被工业化水平所解释的气候变化,也就是虚拟出一个工业化水平不变的情况下,单单减少海盗数量对时候有啥变化的控制实验。
回归是一个非常好用的方法,因为它符合我们的直觉,当我们看到数轴上的一堆点,只要它分布的比较狭长,我们总倾向于想象一条贯穿其中的线,能够最好的拟合这个分布,这也许真的是我们认识世界的“眼睛”,无法逃脱的纯粹理性。然而回归的有效性却是相当苛刻的,那条线时时刻刻在欺骗我们。
我认为海盗这个问题,分析到这一步已经完了,然而对于社会科学,这只是一个起步。数据时时刻刻在欺骗你,你必须把什么情况都考虑进去,例如这是一个时间序列,那么存在不存在序列相关?在时间上是平稳的吗?如果不平稳,有没有趋向于某个长期趋势的均衡关系?再考虑到反向因果关系,就更麻烦了,例如你说海盗减少导致了气候变暖,我还说是气候变暖导致了海盗减少呢,那这因果关系,怎么说的清楚?
所以从数据上寻找规律,寻找变量的因果性,寻找一个变量是由什么决定的,其实是相对不靠谱的方法。真正靠谱的方法,是气候学的理论基础,只有真正从气候学的角度找到全球变暖的成因,才能真正解决问题,随便拿几个数据,看看相关性,最后得出的都是谬误。
退一步说,我们控制了各种影响气候变化的因素,从而证明海盗减少与气候变暖无关,这是数据的胜利吗?仍然不是,这是气候学的胜利,因为我们在加入控制变量的时候,是按照气候学理论中关于气温变暖的决定因素寻找的,如果没有这些,这个计量模型是建立不起来的。
很多人可能会批评做经验分析的经济学家,认为这是统计而不是经济学,这是因为它们把整个研究的方法论给搞反了。计量经济学是验证经济理论的正确与否的,而不是通过几个变量的相关性凭空弄出一套理论来。因此所谓的因果关系,不是数据上具有相关性,而是建立在典型事实之上的经济理论推导出这种因果关系,数据上也支持了这种关系。只有经过严格推敲之后,经验分析推翻了原有的经济理论,才会出现新的经济理论来解释这种反常。
我想套用在这个问题上,也是适用的。“简单的一句“海盗和气候没有相关性”是没法让人信服的。”,然而这一句“没有相关性”却不是简单的一句,因为它与我们构建的气候学大厦不符合,它甚至与我们的直觉不符合,这样的“相关性”一出现,处于节约时间的考虑应该直接忽略掉,反而是那些主张这种相关性是因果性的人,需要举出大量的例子来让人信服,因此并不是“简单的一句海盗和气候没有相关性是没法让人信服的”,而是“简单的几个单变量的相关性就证明海盗和气候的关系,是没法让人信服的”。
换句话说,因果关系也许确实都不靠谱,可是有一些因果关系,比另一些因果关系更加不靠谱。而我们已经发明了很多识别方法。
— 完 —
本文作者:zcw gaizhili
【知乎日报】
你都看到这啦,快来点我嘛 Σ(▼□▼メ)