感谢 @Frida Lee 和 @刘柯 的邀请。首先楼主给出的截图来自UC Berkeley的Jack Gallant lab 2011年发到Current Biology的文章:Reconstructing Visual Experiences from Brain Activity Evoked by Natural Movies: Current Biology 网站上有他们的重建效果的视频,感兴趣的可以去看看(以防有些同学没有阅读权限,这里附几张视频截图)。
大家或许没有想到,其实关于brain decoding的研究已经有不少(科学家就是在“偷偷摸摸”做大家看不到的事情),这些研究主要用machine learning的方法,开创性的研究在2001年由Haxby和同事完成, 他们利用fMRI结合machine learning的算法,实现了预测被试在MRI scanner中看到的是人脸还是房子,还是猫,还是鞋子… 2005年的时候Kamitani和Tong, 利用fMRI解码出了被试看到的grating的方向,如下图(其实没有必要放这个图,不过好像有个研究说相较于行为数据,人们更愿意相信有大脑图的结果,所以无论如何也得放个脑图上来)
另外最近(2014)也有篇重建人脸(静态) 的文章也很有趣:Neural portraits of perception: Reconstructing face images from evoked brain activity 可见这个重建brain image/representation的技术是逐渐发展的,并不是忽如一夜春风来的。因为brain decoding是很复杂也很有趣的课题,答主时间和水平有限不能展开讲,所以接下来我就只针对性地回答一下楼主提到的这篇文章的原理。
如果楼主阅读过原文的话,应该发现文章的大量篇幅其实是在自(炫)豪(耀)地讲他们之前提出的一种新型的encoding model (编码方法,有decoding自然也就有encoding)如何如何好,这种叫作motion-energy encoding model的方法(主要是用来model对运动物体的感知的)的特别之处呢在于克服了fMRI研究的一个局限:fMRI主要是以BOLD(blood oxygen level-dependent, 血氧依赖水平)信号来间接反映神经元信号的,fMRI分析的假设认为只要相应的神经元被激活了,BOLD信号就会开始增加,但是实际上它们并不同步,BOLD信号要比神经活动慢一些,比如说BOLD信号的peak点就比神经活动的peak点要慢6s左右。最常用的假设的BOLD信号模型如下图1,我们可以看到神经活动大概过了6s后,BOLD的曲线才慢慢到达顶点。但是BOLD信号变化这么滞后,怎么能快速反映瞬息万变的世间万象和心理变化呢?这个问题深深地深深地困扰着很多fMRI研究者。所以这篇文章的算法解决了这个问题,“顺便”重构了一下看电影片段时的fMRI信号来验证,然后我们就被震惊啦,纷纷拜倒在大牛手下!
图1(来自维基百科).
其实基本的过程就如楼上 @徐元直 所说,我这里只是增加一些细节内容。作为machine learning的方法,首先他们需要training data,这里的training data是观看7200s的电影片段相对应的位于后侧和腹侧枕颞视觉皮层(posterior and ventral occipitotemporal visual cortex)的BOLD 信号,BOLD信号记录下的是观看电影时视觉皮层特定区域的整体活动,这样是不能用来建立fMRI活动和视觉图像的对应关系的,所以他们用了某种叫做nonlinear spatiotemporal motion-energy filter 的过滤器来提取图像的特征 (这里叫filters,但是我感觉应该是特征的意思), 比如位置,方向,空间,时间频率啊这些,如图2B 所示。然后再把这些特征与BOLD信号(也就是图2A中的Hemodynamic response)结合起来,每一个特征对应一种特定的BOLD曲线(运用了L1-regularized linear regression的方法),把这些曲线合在一起就是预测的BOLD 信号。这里是用training data得到的模型,然后他们又把这些模型用到540s电影(新的电影片段)的test data上面,拿预测的BOLD信号与实际的BOLD信号作比较从而判断模型的准确性(通过计算两者的相关性)。为了显示自己模型的优越性,作者拿了另外两个模型作比较,最后当然如我们所料,作者的模型“完胜” (差异显著啦!!)。
图2.
前面大费周折说了那么多,总结一下就是作者的encoding model是可以用来预测看natural movie时的BOLD信号的!
下面是大家比较感兴趣的重建(reconstruction)过程, 所谓重建就是利用BOLD信号来重构图像,传统的fmri研究是刺激→BOLD信号这样一个过程,重建就是反过来BOLD信号→刺激的过程,也就是传说中的“读心术”。重建的刺激是新的电影片段,BOLD信号来自视觉皮层。首先要说明一下这个重建并不是真的直接提取大脑信号来重建,而是先建立一个包罗众多电影片段的数据库(18 million second,5000小时),然后用上述的encoding model来建立新输入的视觉刺激与BOLD信号之间的关系(predicted signal),通过比较预测的信号与实际测量的信号(被试在MRI scanner里面躺了5000小时???)来对数据库中的收录的电影片段(1s)进行一个排名(图3B),图3C就是与站立人像的BOLD信号最接近的30副图。所谓的解码也就是在记录被试看影像时的BOLD信号的同时,比对数据库中已存的实际影像的BOLD信号,然后找出最接近的片段。图4看起来更清楚,红色方框里就是所谓重构的图像,按照接近程度进行排列,如果数据库中的图像和看到的图像比较接近,解码效果就比较好,反之,效果就比较差。楼主给的图的右侧看起来比较模糊,是因为那幅图是100张图平均的结果,并不是一幅图,也就是图4的AHP(averaged high posterior)。至此,重构过程也就完成了。2013年的时候,日本的学者发了一篇science用的是类似的方法来解梦,感兴趣的可以移步看一下:Neural Decoding of Visual Imagery During Sleep
如果大家觉得这样的黑科技出来,以后人类就没有隐私了,因为我心里想什么就会被知道了(心理学的学生窃喜终于可以回答“你知道我心里在想什么吗?”这个高深莫测的问题了)那就实在高估现在的技术水平了。首先MRI那么昂贵笨重的机器在那里,直接就限制了这项技术的商业化运用;其次整个编码解码过程都需要被试的高度配合(告诉大家一个诀窍,如果那天你被人强制读脑的话,你只要摇晃一下脑袋,数据就不能用了。不过,做实验的时候千万不要动!!要听主试的话!!),这也是为什么文中只用了三个被试,而且都是合作者(永远不要低估研究者发文章的决心!);再者,解码的算法还需要很大的改进,因为不是直接解码,所以从图4中可以看出解出来一些奇怪的画面。不过不管怎么说,这篇文章的想法真的很独特,虽然说这种想法本身就会导致重构图像的不精确,不过技术进步那么快,相信未来的发展会更加超出我们的想象的!
图 3.
图 4.
后记: 今年学期要结束的时候,Dr. Gallant来我们系做一个讲座介绍他的研究,不得不说Gallant lab做的研究真的特别impressive,有兴趣的朋友可以去他的实验室lab看一下(Gallant Lab homepage),重建视觉信息只是他研究的一部分,他们还有很多有意思而且很重要研究正在进行。Dr. Gallant在讲座的时候说他不是一个psychologist,因为那些高级的认知功能太复杂恐怕这辈子都搞不清楚,但是视觉区域的研究已经相对比较透彻了,所以他有生之年还有可能见到搞清楚的一天。这篇文章也正如他说的那样,主要在讨论技术层次的问题,涉及到fMRI技术,信号处理还有贝叶斯统计方面的内容,基本上和认知功能没有太大联系。虽然有些fMRI的经验,但是有太多不熟悉的概念,我个人阅读起来还是挺费劲的,有不少地方理解的也不清楚,如果表述有什么不对的地方还请轻拍和指正。谢谢!
References:
Haxby, J. V., Gobbini, M. I., Furey, M. L., Ishai, A., Schouten, J. L., & Pietrini, P. (2001). Distributed and overlapping representations of faces and objects in ventral temporal cortex. Science, 293(5539), 2425-2430.
Kamitani, Y., & Tong, F. (2005). Decoding the visual and subjective contents of the human brain. Nature neuroscience, 8(5), 679-685.
来源:知乎 www.zhihu.com
作者:镜亦非台
【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。
点击下载
此问题还有 51 个回答,查看全部。
延伸阅读:
大脑中总是反复回忆一段音乐旋律,在心理学中是怎么回事?
最强大脑周玮的心算有什么原理?