(图片作者:Gary Waters 来自:盖蒂图片社)
经过一代人的时间,“技术天才”与社会的关系发生了改变,他们从宅男变成了救世主,从反社会群体变成了社会的最大希望。许多人似乎确信,当下理解我们世界的最佳方式便是坐在屏幕前,分析海量信息——我们称其为“大数据”。
来看看“谷歌流感趋势”吧。2008年,当它面世时,硅谷的许多人员鼓吹其将成为大数据的另一个里程碑,并且会很快淘汰掉传统分析。
不过,他们错了。
如果硅谷的大数据传教士们真想“了解世界”,那么他们不仅需要掌握数据的量,也要掌握数据的质。
“谷歌流感趋势”不仅没有提供流感传播的精确图表,它也无法实现大数据作为传道者的美梦。没有“厚数据”,大数据就什么也不是。你必须离开电脑,深入到现实世界当中来获取这些丰富且带有情境化的信息。电脑极客们一度因不擅社交而被嘲笑,他们被告知应该“多出去走走”。事实上,如果大数据最主要的拥趸者希望理解这个他们也参与塑造的世界,他们真的需要出去走走。
与修改算法无关
“谷歌流感趋势”试图通过识别人们在流感季可能搜索的词汇来发挥作用。当它追踪的词汇搜索达到高峰时,谷歌会向大家预警新流感的爆发,这大约要比官方数据早两周时间。
对很多人来说,“谷歌流感趋势”成为了大数据之力的代表。在畅销书《大数据:一场改变我们生活、工作和思考的革命》中,作者维克托-迈尔-舍恩柏格和肯尼斯-库克耶称,与政府滞后的数据报告相比,“谷歌流感趋势”是更有用、更及时的流感指示器。为什么即便费心查看数据,人们还是会得病,我们何时才能知道究竟什么与疾病相关?“因果关系”他们写道,“不会被丢弃,不过其立意的根本正受到考验。”
然而,本月发表在《科学》上的一篇文章表明,自2011年八月起,“谷歌流感趋势”几乎每周都会高估流感的流行性。
回溯到2009年,在发布后不久,“谷歌流感趋势”完全没预警到猪流感。这证明人们在流感季搜索的许多词都与流感无关,而与每年这一季相关的词通常都有:冬天。
如今,很容易说(像许多人做过的那样)“谷歌流感趋势”的失败源于大数据的不成熟。不过,这样便错过了问题的关键。当然,调整算法、提高数据收集技术将会让下一代大数据工具变得更有效。然而,大数据真正的狂妄之处不在于我们对一套不成熟的算法和方法过于自信,问题是我们盲目地相信坐在电脑屏幕前,捣鼓一些数字就足以让自己对周围广阔的世界有个了解。
为什么大数据需要“厚数据”
大数据仅仅是在收集人文学科中所谓的”薄数据“,它们由我们的动作和行为路径产生。我们每天最常走的路线,在网上搜索的东西,睡了多久,人与人之间的多种联系,我们所听的音乐类型等等。这些数据来自于你浏览器中的cookies,你腕上的fitbit或是你手机里的GPS。人们的这些行为内容无疑是重要的,但它们并不是全部。
为了真正地了解人,我们也必须了解经验的那部分,即人类学家所指的“厚数据”。它不仅仅捕捉事实。比如说,美国有86%的家庭主妇每周会喝掉6夸脱以上的牛奶,但是她们为什么喝牛奶呢?而且这像什么呢?一块带有星星和条纹的三色布是薄数据,而一面在风中高高飘扬的美国国旗便是厚数据。
在探寻“我们做了什么”的基础上,大数据简单地认识我们;厚数据尝试通过我们如何与所在的不同世界相联系来了解我们。只有了解我们的世界,人们才能从整体上真正认识它,这恰恰也是谷歌、facebook这类的公司想要做的。
用0和1认识世界
想想当下硅谷的那些宏伟宣言,谷歌有名的宗旨是“组织全球信息,使人人皆可访问并从中获益。”最近,马克-扎克伯格跟他的投资人说,在全球性连接变得日趋重要、知识经济不断受到强调的背景下,Facebook带来了一个全新的视角,即”认识世界”。他描述了未来“认识”的样子:“人们每天向graph(Facebook的算法搜索机制)发布数十亿条内容和链接,由此建立各种有待了解事物的最明晰模本。”在这个追求认识的过程中,即便是一些小公司也可以分享信息。去年,捷波朗软件的副总裁耶利米-罗宾逊说道,他们的健康跟踪设备Jawbone
UP试图“认识行为变化的科学。”
与收集的数据一样,这些目标也非常“大”。毋庸置疑,商业渴望更好地认识社会。毕竟,与客户行为及文化相关的信息不仅是经营的关键;在知识经济时代,它们也逐渐成为一种货币,用来交换点击数、浏览量、广告费,或是更简单直接的——权力。在此过程中,倘若谷歌、facebook这类公司能帮助我们不断地增进对自己的认识,它们便将获得更大的权力。问题是声称电脑终将组织所有数据,或是向我们提供对流感、健康、社交联系或任何其他事情的全面认识,这彻底拉低了数据和认识的意义。
如果硅谷的大数据传教士们真想“了解世界”,那么他们不仅需要掌握数据的量,也要掌握数据的质。不幸的是,要实现后者,人们要将电脑放下,不仅“从谷歌眼镜中看世界”(或是从facebook中、从虚拟现实中),还要去体验真实的世界。这样做有两个重要原因。
要了解人,你就要了解他们所处的情境
如果你对一个领域高度熟悉,薄数据则是最有用的。你有能力填补信息的不足,设想到人们为什么这样做或为什么有这样的反应——当你能想象并重建行为发生的情境时,薄数据便是有意义的。如果不知道情境,想推断出任何因果关系或是了解人们的行为动机则是很难实现的。
这也是为什么在科学实验中,研究人员需要竭尽全力掌控实验室环境的方方面面,以求打造一个人为场所,使各种影响因素都在可计量范围内。不过,真实世界并不是一个实验室。能确保你对陌生情境有所了解的唯一途径即是置身其中地去观察、去内化并阐述正在发生的每一件事。
世上大部分是我们所不知道的隐性知识
如果说大数据擅长测量人们的行为,那么它在认识人们日常事物的隐性知识方面则是失败的。我怎么知道刷牙时该挤多少牙膏?什么时候该并入行车道?眨眼是表示“这东西真有趣”还是“我的眼睛进了东西”?这些都是内化的能力、无意识的行为,一种内隐的认识在控制着我们的行为。跟身边的事物一样,这些不可见的隐性知识只有主动去看,我们才能发现。不过,它们却对每个人的行为方式有着重要影响。它能够解释事物是怎样、以哪种意义与我们联系起来的。
人类及社会科学中有一系列俘获和解释人的方法,他们所处的情境,他们的隐性知识,而且这些都拥有一个特质:它们要求研究者进入杂乱而真实的生活。
没有哪一个工具可以成为认识人类的快捷方式。尽管硅谷有许多出色的发明,不过我们对数字技术的期望还是要有个限度。“谷歌流感趋势”真正教给我们的是:不能仅仅问这个数据有多“大”,还要问问这个数据有多“厚”。
有时,走进真实的生活将会得到更好的效果。有时,我们必须要离开电脑一会儿。