人脑对运动的识别是一个很大的问题,目前来说没有完整解决。仅仅探究认知上人脑的运动检测功能,或许并不能完整的解释人脑对运动识别的高可靠性。还需要知道人眼的凝视(gaze)能力和该能力的实现的神经基础。而这一点,正是目前我们在计算机的运动追踪中很少被考虑到的。
1.视觉通路(Visual Pathway)与视网膜拓扑映射(Retinotopy)
上图是横断面的人脑视觉通路[1]示意图。人眼的所有眼各有鼻侧和颞侧视野,在视网膜(Retina)感知光信号之后,左右两侧的视神经将信号向后传递,在视交叉(Optic Chiasma)将各自的鼻侧和颞侧信号分流并继续向后传递,分流之后左侧神经只传递右侧视觉信号(左眼鼻侧视野和右眼颞侧视野),右侧神经质传递左侧视觉信号(左眼颞侧视野和右眼鼻侧视野),分别通过两侧的外侧膝状体(LGN, Lateral Geniculate Nucleus),继续传递到枕叶的初级视皮层(V1, Primary Visual Cortex)和更高级的视皮层. 易于理解的,视网膜感知的物体,通过该通路,会以一定空间关系映射视皮层上[2], 该关系被称为视网膜拓扑映射(Retinotopy)[3].
基于该拓扑关系,人们甚至可以通过搜集视皮层的fMRI信号来重建人眼看到的文字/图象,即所谓Mind Reading[4-7].
2.视觉皮层的分级结构和并行结构
视觉信号传递到V1之后,会继续向更高级的视觉皮层传递,最早在根据猕猴(Macaque Monkey)视皮层的解剖结果,人们重建了其各个视皮层之间的分级结构[7]:
以此为基础,逐渐理解了人的视皮层分级结构:
从初级到更高级的视觉皮层,视觉信息逐级传递。人脑理解的内容越来越复杂化、抽象化,由“模式”变成具体的”物”,再到物的特性和物与物之间的关系。在逐级传到过程中,人们也注意到,其在皮层的传到可以大体分成两个通路,腹侧通路(Ventral Pathway/Stream)和背侧通路(Dorsal Pathway/Stream)[8]。
分别又按照功能,被称作“What”和“Where”通路:
其中“Where”跟物体的位置和运动处理有关,“When”跟物体的识别有关[9]。但是该模型仍广受批评。
3.识别与跟踪
通过以上对分级结构的了解可以理解,在分级结构中任何一个区域的功能受损,都会影响人脑对运动的识别和跟踪,各种研究也证实了这一点[10-14]。人对运动的感知和理解,并不是局限在某一个脑区或者几个脑区,而是全脑参与的活动[15]。人脑在运动处理上,除了有被动的运动感知,还有主动的运动追踪,即凝视(共轭凝视,conjugate gaze)能力。
人有四个系统处理共轭凝视:
扫视系统(saccadic system),最常调用的系统,在人主动的调整凝视方向时使用[16];
追踪系统(pursuit system),追踪运动物体;
视动反射系统(Optokinetic reflex system),物体出现在视野,眼睛会追踪,当物体消失,人眼会反射性的回到凝视物体首次出现的位置;
前庭-眼 反射系统(Vestibulo–ocular reflex system),协调头部的运动以获得稳定的图像,是眼睛的“三轴稳定平台”。
因而人眼就像一台高灵敏度、快速聚焦、快速响应、三轴稳定的摄像机,目前人类还造不出在对焦能力上足以和人眼比肩的摄像机,更别说做到跟眼睛同等体积了。人脑在运动识别及追踪处理上,目前区别于计算机运动识别追踪的重要一点是,人脑的识别追踪是实时的,并能反馈控制眼睛的主动追逐。在该机制下,通过“where”和“what”通路处理的信息,会传递到额叶眼领域(FEF, Frontal eye fields)等眼动控制中心,作出眼球运动响应。该机制因此有如下优点:
- 能永远让目标处在清晰度最高的视野中间和聚焦点
- 一次识别和追踪失败,可以回来再看
- 根据物体之间的相对运动区分物体
- 能跟记忆关联,帮助物体识别和追踪
- 运动预判
在目前没有能力如此强大的摄像机机的背景下,目前做的计算机运动识别追踪主要是基于被动影像的处理,即不会根据处理结果调整聚焦和镜头方向。在该条件下,对追逐算法引入学习能力,仍然可以大幅提高追踪速度和准确性,如Tracking-Learning-Detection (TLD) [17]方法:
在图象理解方面,人脑的图像理解既有 bottom-up机制,又有top-down机制,两种相互助益。
在图象模态方面,可以多模态结合,弥补摄像头没有回看能力的缺陷。
在计算方面,分布式计算以提高实时性。
如果能将计算结果反馈给摄像头控制,可能大有帮助。
以上
——–
[1] Standring, Susan. “Gray’s anatomy.” The anatomical basis of clinical practice39 (2008).
[2] Tootell R B H, Hadjikhani N K, Vanduffel W, et al. Functional analysis of primary visual cortex (V1) in humans[J]. Proceedings of the National Academy of Sciences, 1998, 95(3): 811-817.
[3] Engel S A, Glover G H, Wandell B A. Retinotopic organization in human visual cortex and the spatial precision of functional MRI[J]. Cerebral cortex, 1997, 7(2): 181-192.
[4] Miyawaki, Yoichi, et al. “Visual image reconstruction from human brain activity using a combination of multiscale local image decoders.” Neuron 60.5 (2008): 915-929.
[5] Kay, Kendrick N., and Jack L. Gallant. “I can see what you see.” Nature neuroscience 12.3 (2009): 245-245.
[6] Stanley, Garrett B. “Reading and writing the neural code.” Nature neuroscience16.3 (2013): 259-263.
[7] Van Essen, David C., and John HR Maunsell. “Hierarchical organization and functional streams in the visual cortex.” Trends in neurosciences 6 (1983): 370-375.
[8] Kandel, Eric R., James H. Schwartz, and Thomas M. Jessell, eds. Principles of neural science. Vol. 4. New York: McGraw-Hill, 2000.
[9] Ungerleider, Leslie G., and James V. Haxby. “‘What’and ‘where’in the human brain.” Current opinion in neurobiology 4.2 (1994): 157-165.
[10] Grossman, Emily, et al. “Brain areas involved in perception of biological motion.” Journal of cognitive neuroscience 12.5 (2000): 711-720.
[11] Vaina, Lucia M., et al. “Functional neuroanatomy of biological motion perception in humans.” Proceedings of the National Academy of Sciences 98.20 (2001): 11656-11661.
[12] Grossman, Emily D., and Randolph Blake. “Brain areas active during visual perception of biological motion.” Neuron 35.6 (2002): 1167-1175.
[13] Grezes, Julie, et al. “Does perception of biological motion rely on specific brain regions?.” Neuroimage 13.5 (2001): 775-785.
[14] Saygin, Ayse Pinar. “Superior temporal and premotor brain areas necessary for biological motion perception.” Brain 130.9 (2007): 2452-2461.
[15] Rokszin, Alice, et al. “Visual pathways serving motion detection in the mammalian brain.” Sensors 10.4 (2010): 3218-3242.
[16] Robinson, D. A. “The mechanics of human saccadic eye movement.” The Journal of physiology174.2 (1964): 245-264.
[17] Kalal, Zdenek, Krystian Mikolajczyk, and Jiri Matas. “Tracking-learning-detection.” Pattern Analysis and Machine Intelligence, IEEE Transactions on34.7 (2012): 1409-1422.
来源:知乎 www.zhihu.com
【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。
点击下载
此问题还有 2 个回答,查看全部。