Amazon Fire Phone 的 Firefly 识别功能是怎么工作的？

到目前为止，Fire Phone 是唯一能够满足我对“智能”的有限想像的智能手机。（多图）
这里以我有限的见识描述下Firefly 识别功能：

１、Firefly 所能识别的项目

A. Text recognizers: 泛指图像文本识别（Image Text Recognizer），有别于OCR(Optical Character Recognition)，而是类似名片识别，拍照翻译等功能，其终极问题是　Google’s New Street View Image Recognition Algorithm Can Beat Most CAPTCHAs

B. Audio recognizers: 音频识别，如歌曲识别（这一领域的先驱Shazam使用户可以在任何地方通过歌曲的任何一个音轨对其进行识别），电视节目识别等；

C. Image recognizers: 图像识别，主要是基于内容的图像搜索(Content Based Image Retrival)，更近一步讲是类似重复图片检测（Near-duplicate Image Detection），只要是数据库中存在的样本图像，只要查询图片是对其的重采样或编辑，总是可以找到原样本图片，这样就给人造成可以识别上亿商品的表象，说白了就是一对一的匹配，而非广义的图像识别。

这三项与小李子在KDD2012开幕式上演讲提到的九个需要解决的计算机问题的前三个OCR、语音识别、图像搜索（Nine Real Hard Problems We’d Like You to Solve [Abstract, Slides: PDF]）[4]不谋（也可能是有谋）而合，尽管有所出入，但大抵是这个意思。可咱贝爷已经实现了，而且意指很明显，肯定能用它赚上钱，小李子你在忙啥，忙着跟Ｎg秀基情么？

文本识别和音频识别相对来讲识别对象明确些，且小生对这两块了解有限，接下来只讲图像识别这块，这边的战斗更多彩，摄像头做为移动设备的入口之一，早已成为兵家必争之地。

２、摄像头后面的头

烧不起器材的穷吊经常用“摄影不在于镜头多牛，而在于镜头后面的头” 解毒，这里我替贝爷喝句”FireFly就是摄像头后面的头”，还在比像素你们真是LOW！

从摄像头捕捉到的图像中，FireFly做了这些：
二维码/条形码　识别；
电话号码/邮箱/网址　识别；
图书/CD/DVD/游戏封面，电影海报　识别；
艺术品识别；
商品识别；

听上去好像也就这样，企鹅家的微信和G家的goggles也有类似功能嘛，但是它们有巨大的区别！咱先说说贝爷为这事有多么努力骚年你们可知道呀：

2009年A9收购Snaptell[1]，A9是amazon的子公司。Snaptell主要业务是手机图像检索，即通过手机摄像头抓拍到的图像搜索相关信息。官方介绍他们的算法非常之精准，可以对付遮挡，光照不均，扭曲，透视，缩放等等，总之很牛。他们的算法名字叫”highly accurate and robust
algorithm for image matching: Accumulated Signed Gradient
(ASG)”。创始人之一Rajeev Motwan在斯坦福大学指导过google创始人Larry Page 和Sergey Brin[2]。

2011年11月发布Amazon Flow应用程序，是一款增强现实的购物iPhone应用，它使用条形码和图像识别技术，让购物者直接在摄像头视图中获得信息。Flow可以识别出的书籍、DVD、CD、视频游戏和其他有包装的东西，比如一盒饼干——无论是通过扫描产品的图像还是条形码，通过识别媒介产品的封面、logo、艺术品以及其他一些独特的视觉特点来工作。Flow是亚马逊的子公司A9运营的，A9是亚马逊旗下的专注搜索和广告的部门[3]。

嗯，就是这么过来的，贝爷都这么努力了，骚年们还在晃悠什么，战斗去吧。

３、如何识别

发布会的视频中列举过一些技术名词，但多是用于图像预处理，并不体现图像识别的工作原理：

Adaptive local contrast enhancement
Adaptive noise reduction
Glare detection
Shadow removal
Underline removal
Two phase MSER scanning
Orientation normalization
Multiframe combination
Multiple OCR engines
Page layout analysis
Truncation filtering
Multiframe super-resolution
Confidence filtering
Hybrid 2-pass scanning
Adaptive scaling
Automatic cropping

所以小生并不能对其真实工作原理进行意想，要直白地描述这个过程也不是容易的事，这里给个参考：
Mobile Visual Search：
http://www.stanford.edu/~dmchen/mvs.html
http://www.slideshare.net/foerderverein/mobile-visual-search

４、情景购买：所见即所得

想象下通过手机拍照就能到达相应商品购买页面的情景，目前常用的手段是条形码和二维码，直接拍照购买的物品还局限在图书ＣＤ电影等，要扩展到全品类商品，需要海量的数据支撑。
微信已完成第一步，在第二步上，相信在其注资京东后会有所行动；百度有相关的技术，但缺乏完善的电商数据支撑，变现不那直接，百度识图只是个不是那么必要的工具；Ｇ家情况也类似，goggles沦为娱乐工具；阿里有先天优势，其定义的摄像头门户正合些题，但一淘火眼成长太慢了；所以，amazon在下一局大棋，并且有能力下好。

参考：
1. http://snaptell.typepad.com/http://techcrunch.com/2009/06/16/image-recognition-startup-snaptell-acquired-by-amazon-subsidiary-a9com/
2. http://www.cvchina.info/2010/01/21/company-introduction-3-snaptell
3. http://biz.jrj.com.cn/2014/06/19111717442547.shtml
4. Invited Keynote Speakers
5. http://blog.youtueye.com/tech/point-know-buy.html
6. http://blog.youtueye.com/tech/mobile-smart-vision.html

— 完 —

本文作者：邹哥亮

【知乎日报】
你都看到这啦，快来点我嘛 Σ(▼□▼メ)

此问题还有 2 个回答，查看全部。
延伸阅读：
国行的 Kindle Fire 和 Kindle Paperwhite 哪个好？
国内用户如何购买 Kindle Fire？

浙江省高校采购工作交流会在我校举行

国家教育行政学院第七十三期高校中青年干部培训班来我校调研

学校召开新学期本科教学工作会议

高考倒计时100天！浙工大期待与你相遇

如果子良楼会说话

“留家庄”火热开庄！

邓纯东来校作学术报告

李灿院士受邀做客“厚德大讲堂”

2024年浙江工业大学ESI高被引论文年报

【浙工大•这五年】有组织地做有用科研，跑出科技创新高质量发展加速度

【浙工大•这五年】奋力推进新时代卓越研究生教育体系建设

【浙工大•这五年】立德树人守初心，铸魂育才创一流

一图读懂“浙工大系”！浙江工业大学校友企业发展报告（2024）来了！

浙江工业大学校友企业家联谊会成立， “浙工大系”聚力启航！

学校成立绍兴校友会化工分会

湖畔周末镜中

晒出你的范儿!|首届杭城高校自拍大赛火爆启动

湖畔周末行至

我校足球队获2024年浙江省青少年校园足球联赛大学男子甲A组冠军

有体育，才工大！ZJUT运动会来啦！

专业！下次还来！

我校承办浙江省高校“科技创新和产业创新深度融合”交流研讨会

省部属高校组织员能力提升培训示范班在浙工大举行

小和山片区高校校际干部联合培训班在我校举行

好看又实用！浙工大专属PPT模板上新！

美国内科学会推荐用针灸治抑郁？没有的事

古人“以辣代盐”，原来有神经学基础

省档案馆馆长王利月一行来校调研

邓纯东来校作学术报告

教育部学位中心论文质量监测处处长李恒金来校作专题报告

学校召开留学生工作领导小组会议

学校召开2025年上半年组织工作会议暨“教育强国创新浙江工大何为”组工线大讨论

学校召开新学期本科教学工作会议

国家教育行政学院第七十三期高校中青年干部培训班来我校调研

浙江省高校采购工作交流会在我校举行

Amazon Fire Phone 的 Firefly 识别功能是怎么工作的？

Amazon Fire Phone 的 Firefly 识别功能是怎么工作的？

分享到

下一篇 瑞士的苏黎世保险集团都给巴西世界杯的建筑提供了哪些保险服务？

上一篇 事后温存，甚至比啪啪啪更重要

相关阅读

下一篇瑞士的苏黎世保险集团都给巴西世界杯的建筑提供了哪些保险服务？

上一篇事后温存，甚至比啪啪啪更重要