到目前为止,Fire Phone 是唯一能够满足我对“智能”的有限想像的智能手机。(多图)
这里以我有限的见识描述下Firefly 识别功能:

1、Firefly 所能识别的项目

Amazon Fire Phone 的 Firefly 识别功能是怎么工作的?插图

A. Text recognizers: 泛指图像文本识别(Image Text Recognizer),有别于OCR(Optical Character Recognition),而是类似名片识别,拍照翻译等功能,其终极问题是 Google’s New Street View Image Recognition Algorithm Can Beat Most CAPTCHAs

Amazon Fire Phone 的 Firefly 识别功能是怎么工作的?插图1

B. Audio recognizers: 音频识别,如歌曲识别这一领域的先驱Shazam使用户可以在任何地方通过歌曲的任何一个音轨对其进行识别),电视节目识别等;

Amazon Fire Phone 的 Firefly 识别功能是怎么工作的?插图2

C. Image recognizers: 图像识别,主要是基于内容的图像搜索(Content Based Image Retrival),更近一步讲是类似重复图片检测(Near-duplicate Image Detection),只要是数据库中存在的样本图像,只要查询图片是对其的重采样或编辑,总是可以找到原样本图片,这样就给人造成可以识别上亿商品的表象,说白了就是一对一的匹配,而非广义的图像识别。

Amazon Fire Phone 的 Firefly 识别功能是怎么工作的?插图3

这三项与小李子在KDD2012开幕式上演讲提到的九个需要解决的计算机问题的前三个OCR、语音识别、图像搜索(Nine Real Hard Problems We’d Like You to Solve [Abstract, Slides: PDF])[4]不谋(也可能是有谋)而合,尽管有所出入,但大抵是这个意思。可咱贝爷已经实现了,而且意指很明显,肯定能用它赚上钱,小李子你在忙啥,忙着跟Ng秀基情么?

文本识别和音频识别相对来讲识别对象明确些,且小生对这两块了解有限,接下来只讲图像识别这块,这边的战斗更多彩,摄像头做为移动设备的入口之一,早已成为兵家必争之地。

2、摄像头后面的头

烧不起器材的穷吊经常用“摄影不在于镜头多牛,而在于镜头后面的头” 解毒,这里我替贝爷喝句”FireFly就是摄像头后面的头”,还在比像素你们真是LOW!

从摄像头捕捉到的图像中,FireFly做了这些:
二维码/条形码 识别;
电话号码/邮箱/网址 识别;
图书/CD/DVD/游戏封面,电影海报 识别;
艺术品识别;
商品识别;

Amazon Fire Phone 的 Firefly 识别功能是怎么工作的?插图4

听上去好像也就这样,企鹅家的微信和G家的goggles也有类似功能嘛,但是它们有巨大的区别!咱先说说贝爷为这事有多么努力骚年你们可知道呀:

2009年A9收购Snaptell[1]A9amazon的子公司。Snaptell主要业务是手机图像检索,即通过手机摄像头抓拍到的图像搜索相关信息。官方介绍他们的算法非常之精准,可以对付遮挡,光照不均,扭曲,透视,缩放等等,总之很牛。他们的算法名字叫”highly accurate and robust
algorithm for image matching: Accumulated Signed Gradient
(ASG)”。创始人之一Rajeev Motwan在斯坦福大学指导过google创始人Larry PageSergey Brin[2]。

2011年11月发布Amazon Flow应用程序,是一款增强现实的购物iPhone应用,它使用条形码和图像识别技术,让购物者直接在摄像头视图中获得信息。Flow可以识别出的书籍、DVD、CD、视频游戏和其他有包装的东西,比如一盒饼干——无论是通过扫描产品的图像还是条形码,通过识别媒介产品的封面、logo、艺术品以及其他一些独特的视觉特点来工作。Flow是亚马逊的子公司A9运营的,A9是亚马逊旗下的专注搜索和广告的部门[3]。

嗯,就是这么过来的,贝爷都这么努力了,骚年们还在晃悠什么,战斗去吧。

3、如何识别

发布会的视频中列举过一些技术名词,但多是用于图像预处理,并不体现图像识别的工作原理:

Amazon Fire Phone 的 Firefly 识别功能是怎么工作的?插图5

Amazon Fire Phone 的 Firefly 识别功能是怎么工作的?插图6

Adaptive local contrast enhancement
Adaptive noise reduction
Glare detection
Shadow removal
Underline removal
Two phase MSER scanning
Orientation normalization
Multiframe combination
Multiple OCR engines
Page layout analysis
Truncation filtering
Multiframe super-resolution
Confidence filtering
Hybrid 2-pass scanning
Adaptive scaling
Automatic cropping

所以小生并不能对其真实工作原理进行意想,要直白地描述这个过程也不是容易的事,这里给个参考:
Mobile Visual Search:
http://www.stanford.edu/~dmchen/mvs.html
http://www.slideshare.net/foerderverein/mobile-visual-search

4、情景购买:所见即所得

想象下通过手机拍照就能到达相应商品购买页面的情景,目前常用的手段是条形码和二维码,直接拍照购买的物品还局限在图书CD电影等,要扩展到全品类商品,需要海量的数据支撑。
微信已完成第一步,在第二步上,相信在其注资京东后会有所行动;百度有相关的技术,但缺乏完善的电商数据支撑,变现不那直接,百度识图只是个不是那么必要的工具;G家情况也类似,goggles沦为娱乐工具;阿里有先天优势,其定义的摄像头门户正合些题,但一淘火眼成长太慢了;所以,amazon在下一局大棋,并且有能力下好。

参考:
1. http://snaptell.typepad.com/http://techcrunch.com/2009/06/16/image-recognition-startup-snaptell-acquired-by-amazon-subsidiary-a9com/
2. http://www.cvchina.info/2010/01/21/company-introduction-3-snaptell
3. http://biz.jrj.com.cn/2014/06/19111717442547.shtml
4. Invited Keynote Speakers
5. http://blog.youtueye.com/tech/point-know-buy.html
6. http://blog.youtueye.com/tech/mobile-smart-vision.html

— 完 —

本文作者:邹哥亮

【知乎日报】
你都看到这啦,快来点我嘛 Σ(▼□▼メ)

此问题还有 2 个回答,查看全部。
延伸阅读:
国行的 Kindle Fire 和 Kindle Paperwhite 哪个好?
国内用户如何购买 Kindle Fire?

分享到