首先,从场景图像中检测到人脸的技术叫做人脸检测而非人脸识别。后者特指给定人脸照片判断身份。
第二,通用的人脸检测器大多是针对照片的。因此直接用于这类图片效果必然很糟糕。比如类似图上最大人脸的鼻子同时是另一个人的胳膊这种二义性的问题,通用检测器肯定是搞不定的。所以需要针对这些特点对检测器进行专门调整。
那么专门调整后的检测器性能会怎样呢?这个我也不能确定。只能以自己的经验来判断一下。
先给出我的判断。
人和计算机都能轻松判断的:1,3,5,(6)
人能轻松判断而计算机不能的:2,4,7
耍流氓:8,9
首先说8、9两张侧脸,它们的问题是只有脸的侧边轮廓,但在该有眼睛的地方却没有。因此严格的说,这两张不应该算作人脸,属于定义不清的问题。
再说1,3,5,6。这四张脸的共同特点是具有明显的部件特征。(正脸五官清晰,侧脸有明显的圆型轮廓,鼻子、眼睛、眉毛都很清楚),这里6对于计算机比较困难,因为计算机只能找到侧脸轮廓和眼眉,找不到脑袋,不过利用这些应该也能准确判断。
最后2,4,7的共同点是部件信息不清。2只有圆形轮廓、4五官不清。7只有鼻子和眼睛,人脸轮廓线很短不足以判断。
而人为什么可以判断呢?这就是本答案最重要的观点:
人认识这张图里的所有东西。
同样是半圆形轮廓,人会把3的脑瓜顶认成人脸的一部分,却不会把拱门的上沿认成人脸的一部分,原因在于,人认识那是拱门。同样,人并没有把狗当成人脸是因为人认出了那是狗。而妇女1抱着的那个东西,虽然很模糊,但没有人会把它当成土豆,因为大家知道那个位置本身就应当出现婴儿的脑袋。对于4,人能认出是脸主要缘于腿脚、胳膊、拐杖这些其他的元素。而7的眼睛属于突兀出现的异常部件,虽然可以解释成飞鸟,但在整幅图的背景下,有意画成脸的概率更高。
人类的以上思考过程都是基于与人脸检测任务本身无关的其他经验。而人类把这些看似无关经验拿来帮助完成特定任务的能力是目前的计算机难以望其项背的,也无法在算法设计过程中加以利用。目前机器学习最新的热点——多任务学习正在试图模仿人类的这一功能,另外deep learning中的“共享权值”设定也包含了点儿意思,但总体上这方面的努力才刚刚起步,人机性能存在巨大gap。
— 完 —
本文作者:梁亦聪
【知乎日报】
你都看到这啦,快来点我嘛 Σ(▼□▼メ)
此问题还有 1 个回答,查看全部。
延伸阅读:
LBP (Local Binary Pattern) 是目前流行的模式识别、人脸识别算法吗?
Google 要退出人脸识别技术研究吗?