能够将人类大脑中浮现的画面重现出来的技术原理是什么？

感谢 @Frida Lee 和 @刘柯的邀请。首先楼主给出的截图来自UC Berkeley的Jack Gallant lab 2011年发到Current Biology的文章：Reconstructing Visual Experiences from Brain Activity Evoked by Natural Movies: Current Biology 网站上有他们的重建效果的视频，感兴趣的可以去看看（以防有些同学没有阅读权限，这里附几张视频截图）。

大家或许没有想到，其实关于brain decoding的研究已经有不少（科学家就是在“偷偷摸摸”做大家看不到的事情），这些研究主要用machine learning的方法，开创性的研究在2001年由Haxby和同事完成, 他们利用fMRI结合machine learning的算法，实现了预测被试在MRI scanner中看到的是人脸还是房子，还是猫，还是鞋子… 2005年的时候Kamitani和Tong, 利用fMRI解码出了被试看到的grating的方向，如下图（其实没有必要放这个图，不过好像有个研究说相较于行为数据，人们更愿意相信有大脑图的结果，所以无论如何也得放个脑图上来）

另外最近（2014）也有篇重建人脸（静态）的文章也很有趣：Neural portraits of perception: Reconstructing face images from evoked brain activity 可见这个重建brain image/representation的技术是逐渐发展的，并不是忽如一夜春风来的。因为brain decoding是很复杂也很有趣的课题，答主时间和水平有限不能展开讲，所以接下来我就只针对性地回答一下楼主提到的这篇文章的原理。

如果楼主阅读过原文的话，应该发现文章的大量篇幅其实是在自（炫）豪（耀）地讲他们之前提出的一种新型的encoding model （编码方法，有decoding自然也就有encoding）如何如何好，这种叫作motion-energy encoding model的方法（主要是用来model对运动物体的感知的）的特别之处呢在于克服了fMRI研究的一个局限：fMRI主要是以BOLD（blood oxygen level-dependent, 血氧依赖水平）信号来间接反映神经元信号的，fMRI分析的假设认为只要相应的神经元被激活了，BOLD信号就会开始增加，但是实际上它们并不同步，BOLD信号要比神经活动慢一些，比如说BOLD信号的peak点就比神经活动的peak点要慢6s左右。最常用的假设的BOLD信号模型如下图1，我们可以看到神经活动大概过了6s后，BOLD的曲线才慢慢到达顶点。但是BOLD信号变化这么滞后，怎么能快速反映瞬息万变的世间万象和心理变化呢？这个问题深深地深深地困扰着很多fMRI研究者。所以这篇文章的算法解决了这个问题，“顺便”重构了一下看电影片段时的fMRI信号来验证，然后我们就被震惊啦，纷纷拜倒在大牛手下！

图1(来自维基百科).

其实基本的过程就如楼上 @徐元直所说，我这里只是增加一些细节内容。作为machine learning的方法，首先他们需要training data，这里的training data是观看7200s的电影片段相对应的位于后侧和腹侧枕颞视觉皮层（posterior and ventral occipitotemporal visual cortex）的BOLD 信号，BOLD信号记录下的是观看电影时视觉皮层特定区域的整体活动，这样是不能用来建立fMRI活动和视觉图像的对应关系的，所以他们用了某种叫做nonlinear spatiotemporal motion-energy filter 的过滤器来提取图像的特征 (这里叫filters，但是我感觉应该是特征的意思), 比如位置，方向，空间，时间频率啊这些，如图2B 所示。然后再把这些特征与BOLD信号（也就是图2A中的Hemodynamic response）结合起来，每一个特征对应一种特定的BOLD曲线（运用了L1-regularized linear regression的方法），把这些曲线合在一起就是预测的BOLD 信号。这里是用training data得到的模型，然后他们又把这些模型用到540s电影(新的电影片段)的test data上面，拿预测的BOLD信号与实际的BOLD信号作比较从而判断模型的准确性（通过计算两者的相关性）。为了显示自己模型的优越性，作者拿了另外两个模型作比较，最后当然如我们所料，作者的模型“完胜” (差异显著啦！！)。

图2.

前面大费周折说了那么多，总结一下就是作者的encoding model是可以用来预测看natural movie时的BOLD信号的！

下面是大家比较感兴趣的重建(reconstruction)过程, 所谓重建就是利用BOLD信号来重构图像，传统的fmri研究是刺激→BOLD信号这样一个过程，重建就是反过来BOLD信号→刺激的过程，也就是传说中的“读心术”。重建的刺激是新的电影片段，BOLD信号来自视觉皮层。首先要说明一下这个重建并不是真的直接提取大脑信号来重建，而是先建立一个包罗众多电影片段的数据库（18 million second，5000小时），然后用上述的encoding model来建立新输入的视觉刺激与BOLD信号之间的关系（predicted signal），通过比较预测的信号与实际测量的信号（被试在MRI scanner里面躺了5000小时？？？）来对数据库中的收录的电影片段（1s）进行一个排名（图3B），图3C就是与站立人像的BOLD信号最接近的30副图。所谓的解码也就是在记录被试看影像时的BOLD信号的同时，比对数据库中已存的实际影像的BOLD信号，然后找出最接近的片段。图4看起来更清楚，红色方框里就是所谓重构的图像，按照接近程度进行排列，如果数据库中的图像和看到的图像比较接近，解码效果就比较好，反之，效果就比较差。楼主给的图的右侧看起来比较模糊，是因为那幅图是100张图平均的结果，并不是一幅图，也就是图4的AHP（averaged high posterior）。至此，重构过程也就完成了。2013年的时候，日本的学者发了一篇science用的是类似的方法来解梦，感兴趣的可以移步看一下：Neural Decoding of Visual Imagery During Sleep

如果大家觉得这样的黑科技出来，以后人类就没有隐私了，因为我心里想什么就会被知道了（心理学的学生窃喜终于可以回答“你知道我心里在想什么吗？”这个高深莫测的问题了）那就实在高估现在的技术水平了。首先MRI那么昂贵笨重的机器在那里，直接就限制了这项技术的商业化运用；其次整个编码解码过程都需要被试的高度配合（告诉大家一个诀窍，如果那天你被人强制读脑的话，你只要摇晃一下脑袋，数据就不能用了。不过，做实验的时候千万不要动！！要听主试的话！！），这也是为什么文中只用了三个被试，而且都是合作者（永远不要低估研究者发文章的决心！）；再者，解码的算法还需要很大的改进，因为不是直接解码，所以从图4中可以看出解出来一些奇怪的画面。不过不管怎么说，这篇文章的想法真的很独特，虽然说这种想法本身就会导致重构图像的不精确，不过技术进步那么快，相信未来的发展会更加超出我们的想象的！

图 3.

图 4.

后记：今年学期要结束的时候，Dr. Gallant来我们系做一个讲座介绍他的研究，不得不说Gallant lab做的研究真的特别impressive，有兴趣的朋友可以去他的实验室lab看一下（Gallant Lab homepage），重建视觉信息只是他研究的一部分，他们还有很多有意思而且很重要研究正在进行。Dr. Gallant在讲座的时候说他不是一个psychologist，因为那些高级的认知功能太复杂恐怕这辈子都搞不清楚，但是视觉区域的研究已经相对比较透彻了，所以他有生之年还有可能见到搞清楚的一天。这篇文章也正如他说的那样，主要在讨论技术层次的问题，涉及到fMRI技术，信号处理还有贝叶斯统计方面的内容，基本上和认知功能没有太大联系。虽然有些fMRI的经验，但是有太多不熟悉的概念，我个人阅读起来还是挺费劲的，有不少地方理解的也不清楚，如果表述有什么不对的地方还请轻拍和指正。谢谢！

References:
Haxby, J. V., Gobbini, M. I., Furey, M. L., Ishai, A., Schouten, J. L., & Pietrini, P. (2001). Distributed and overlapping representations of faces and objects in ventral temporal cortex. Science, 293(5539), 2425-2430.
Kamitani, Y., & Tong, F. (2005). Decoding the visual and subjective contents of the human brain. Nature neuroscience, 8(5), 679-685.

来源：知乎 www.zhihu.com

作者：镜亦非台

【知乎日报】千万用户的选择，做朋友圈里的新鲜事分享大牛。
点击下载

此问题还有 51 个回答，查看全部。
延伸阅读：
大脑中总是反复回忆一段音乐旋律，在心理学中是怎么回事？
最强大脑周玮的心算有什么原理？

浙江省高校采购工作交流会在我校举行

国家教育行政学院第七十三期高校中青年干部培训班来我校调研

学校召开新学期本科教学工作会议

高考倒计时100天！浙工大期待与你相遇

如果子良楼会说话

“留家庄”火热开庄！

邓纯东来校作学术报告

李灿院士受邀做客“厚德大讲堂”

2024年浙江工业大学ESI高被引论文年报

【浙工大•这五年】有组织地做有用科研，跑出科技创新高质量发展加速度

【浙工大•这五年】奋力推进新时代卓越研究生教育体系建设

【浙工大•这五年】立德树人守初心，铸魂育才创一流

一图读懂“浙工大系”！浙江工业大学校友企业发展报告（2024）来了！

浙江工业大学校友企业家联谊会成立， “浙工大系”聚力启航！

学校成立绍兴校友会化工分会

湖畔周末镜中

晒出你的范儿!|首届杭城高校自拍大赛火爆启动

湖畔周末行至

我校足球队获2024年浙江省青少年校园足球联赛大学男子甲A组冠军

有体育，才工大！ZJUT运动会来啦！

专业！下次还来！

我校承办浙江省高校“科技创新和产业创新深度融合”交流研讨会

省部属高校组织员能力提升培训示范班在浙工大举行

小和山片区高校校际干部联合培训班在我校举行

好看又实用！浙工大专属PPT模板上新！

美国内科学会推荐用针灸治抑郁？没有的事

古人“以辣代盐”，原来有神经学基础

省档案馆馆长王利月一行来校调研

邓纯东来校作学术报告

教育部学位中心论文质量监测处处长李恒金来校作专题报告

学校召开留学生工作领导小组会议

学校召开2025年上半年组织工作会议暨“教育强国创新浙江工大何为”组工线大讨论

学校召开新学期本科教学工作会议

国家教育行政学院第七十三期高校中青年干部培训班来我校调研

浙江省高校采购工作交流会在我校举行

能够将人类大脑中浮现的画面重现出来的技术原理是什么？

能够将人类大脑中浮现的画面重现出来的技术原理是什么？

分享到

下一篇 车险怎么办理？

上一篇 sketchup 做剖透视图 渲染不了？

相关阅读

下一篇车险怎么办理？

上一篇 sketchup 做剖透视图渲染不了？