视觉搜索:看到一只狗,怎么认出它

CD封面检索示例

设想这样一个场景:某天你遇到一只狗,很喜欢却没办法搞清楚是什么品种,怎么才能快速获得答案?通常这样的要求可以借助搜索引擎,但在这个场景下,找出正确形容这只狗的核心关键词,似乎成了一种更具难度的挑战。

然而搜索引擎并未失效,只是需要更换一种输入方式——变文字为图像。以多媒体的方式发起搜索,这也正是搜索引擎一贯的演进方向。

几天前机缘巧合,百度工程师李浩向我展示了尚未在iOS和Android平台发布的新产品——百度移动">视觉搜索。这个技术将在百度移动平台客户端上实现:通过手机摄像头捕捉的图像,帮用户找到想要的那本书、那张CD甚至是那只狗。

我的第一反应是,移动视觉搜索和之前的PC端的以图搜图,有差么?

我得到的答案是:在选取特征表达方面,这两个产品没有根本性的差异;而不同之处体现在数据库和算法方面。几年前推出的百度识图(shitu.baidu.com),只是简单的寻找相同图片,实用价值坦白讲并不高(最近加强了人脸识别功能)。

而即将应用在手机端的视觉搜索,显然不想变成一种鸡肋。

书籍封面检索示例

不同之处首先是缩小了适用范围。这个产品将通过逐个小类目渗透的方式推进,首先是支持图书搜索、然后是支持音乐CD……这就是上面提到的数据库变化。新的方式所要处理的数据规模要小得多,这同时也给算法带来更多的灵活性。

数据库越大,对算法的要求就约高。搜索算法主要以两个纬度衡量:一是效果,二是效率。所谓效果就是准确率和召回率,这两项关系到搜索质量的好坏;而效率可以理解为单位时间的处理速度,这直接关系到一次查询所消耗的时间。

实际上更小的数据库,使得算法效率可以略作牺牲,换取效果的提升。

效果怎么提升?李浩解释说,一是抽取更多的特征表达,更多特征的好处显而易见;二是改进索引结构,变一级索引为多级索引,这可以形象的理解为先搜一遍,然后在这个结果上再搜一遍……最后才把结果返回给用户。

差异大抵如此。

电影海报检索示例

我看到的内部测试版本中,百度移动视觉搜索已经涉及了几个类目:图书、音乐CD、娱乐海报、文字识别、翻译以及开头提及的:狗。

以iOS平台为例,正式发布后用户打开“百度搜索”App,点击搜索框右侧的相机图标,就能弹出相应的视觉搜索功能菜单。比方想要寻找某一图书,只需要按照前述过程,对着一本书拍一下,就能获得这本书的相关信息:包括多个网店的售价。

CD和海报等也是如此。你不必拍全,只拍一部分也能找到想要的结果,甚至斜着拍、倒着拍也不影响搜索结果。这与特征识别的提取有关,机器和人的识别模式显然不同。产品经理会决定下一步扩展到哪个新的类目。

最容易的扩展方向还是“刚体”。也是说,搜索对象的外型和体积不会轻易发生变化。在这种类目上,就可以启动机器学习中“非监督”模式,即不需要人工干预、指导机器的学习过程,这种模式显得又快又轻松。

衣服就是一个刚体反例——很容易发生形变。通过“有监督”的模式,机器能够学习判断长袖短袖等衣服类型,然而形变过大必然会影响实际的效果。

其实,开头提到的狗也是反例。

对于机器怎么在“有监督”模式下学会识别狗,我非常好奇。而过程似乎也比想象中的简单:不需要人为事先给出狗的特征定义,只需要提供足够的相关图片,用以划上一个大致的识别边界,机器就会自己找到判定一只狗的方法。

(责任编辑:蒙遗善)

时间: 2024-10-23 21:16:57

视觉搜索:看到一只狗,怎么认出它的相关文章

李彦宏“赏花”,看视觉搜索未来!

中介交易 SEO诊断 淘宝客 云主机 技术大厅 在百度第五届Hackathon(百度内部编程马拉松)上, 李彦宏一如既往地参与点评.据百度内部同学爆料,这次李彦宏尤其被一个美女博士领衔的学生团队"赏花宝典"应用所吸引. 88年美女博士与"赏花宝典" 据百度同学说本次Hackathon是首次对外开放,有6支校园高手组队参加Hackathon.其中一支名为TAGroup的校园代表队leader是88年美女博士古晓艳,目前在中科院计算所读大数据方向的博士. 通过主动争取李

视觉搜索是移动搜索的未来

愚人节当天发布消息很容易会让人产生联想.但这仍然没有抵挡住企业的"假日营销",比如苹果的道歉,再比关于百度的两则消息:一是百度宣布与知名娱乐商达成合作,通过"机器评委系统"进行海选,以机器方式替代人工面试筛选,网友只需拍摄或上传照片就能参与.在选秀节目和评委满天飞的情况下,机器也来凑热闹?昨晚笔者还得到一个劲爆消息:百度眼镜来了:百度宣布内测成功 Baidu Eye ,这是类似于 Google Glass 的设备,据称将配备超小液晶显示.语音操控.图像识别.骨传导技

微软必应推出视觉搜索功能

北京时间9月15日早间消息,据国外媒体昨日报道,微软高级副总裁约瑟夫·迈赫迪(Yusuf Mehdi)周一宣布推出必应(Bing)搜索引擎的最新视觉搜索功能,以微软的Silverlight技术为支持,能以互动图片库的方式显示搜索结果. 举例来说,如果用户输入关键词"狗品种",则必应将以网格图片的方式来组织搜索结果,用户可拖动右方的滑动条来滚动浏览:当用户将鼠标停留在某张图片上时,狗品种的名称将在搜索框中显示.此外,用户还可按图片大小.狗的品种及必应人气度等方式重新排序. 必应拥有100

狐狸:交易担保很疯狂,网络上你可以是只狗

今天,落伍打破了尘封已久的版权说明.开始支持交易担保.落伍的鱼也开始不低调了.打起为草根站长服务的旗号.一口气开了5个版面.看来,针对千万草根站长的巨大市场,谁也不甘寂寞.就连一向低调的鱼,也忍不住开始学习起游泳了. 从图王首开交易担保业务到现在,交易担保已经超过了150万大关,而落伍今天的交易担保也超过了10万,从这一点上,大家也可以看的出来,站长之间的每日交易数量有多大.担保,从另外一个层次也反映了现在网络交易的风险性.和站长互相交易的监管性的忧虑.顾名思义,担保交易就是双方寻找一个都可以信

谷歌收购英手机视觉搜索创业公司Plink(图)

腾讯科技讯(编译/中涛)北京时间4月12日消息,据美国科技博客网站TechCrunch报道,英国手机视觉搜索服务创业公司Plink今天在其官方博客中宣布,Plink已被谷歌收购,但未透露这起交易的涉资金额.英国手机视觉搜索服务商Plink官方网站(腾讯科技配图) 据悉,Plink两位联合创始人马克卡明斯(Mark Cummins)和詹姆士菲尔宾(James Philbin)将加盟谷歌Goggles拍照搜索技术开发团队,以加强谷歌视觉搜索技术的实力. Plink此前已针对谷歌Android智能手机

Dropcam的创业故事:最初是为了监视一只狗

Dropcam的故事是一个经典的硅谷http://www.aliyun.com/zixun/aggregation/7297.html">成功故事. 上周五,谷歌(微博)旗下的Nest公司宣布,它将以5.55亿美元的现金价格收购Dropcam. Dropcam是一个创办仅5年的公司,位于美国旧金山,其创始人格雷格·达菲(Greg Duffy)和Amir Virani曾经是Xobni公司的工程师.(Xobni是一个电子邮件管理应用程序,2013年被雅虎收购,收购价格据称超过3000万美元.)

视觉搜索推动网络购物 清醒网测试版上线

联合电讯社/北京--近日,中国第一家视觉搜索的电子商务类网站清醒网www.sobergo.com测试版上线.其模式在国内比较新颖,把视觉搜索与电子商务相结合,并根据产品属性和消费者需求习惯等信息,进行深度的数据挖掘,建立了4W智能商品关联推荐系统.清醒网CEO姜永桢此前在国内某知名视频领域公司任职.目前国内电子商务领域日渐火爆,但针对与购物需求更加匹配的视觉技术方面的探索较少,同时,辅助消费者决策的系统也相对不成熟,清醒网定位为国内首家视觉搜索网站,致力于解决上述一些缺口,将自身在视觉领域的经验

微软搜索引擎bing推视觉搜索

新华网旧金山9月15日专电 美国微软公司的"必应"搜索引擎已开始尝试推出一项名为"视觉搜索"的新功能,通过图片帮助用户更方便地完成特定搜索任务. 微软公司高级副总裁迈赫迪14日在旧金山举行的一个科技会议上演示了"视觉搜索"的操作方式.用户在使用时不必直接输入关键词,就可通过分门别类的图片库进行搜索. 目前,仍处于测试阶段的"视觉搜索"页面有娱乐.名人.参考信息.购物和体育等 5大类图片库, 它们下面又细分为近40个图片子库,如

微软必应搜索引擎试推视觉搜索新功能

新华网旧金山9月15日电 美国微软公司的"必应"搜索引擎已开始尝试推出一项名为"视觉搜索"的新功能,通过图片帮助用户更方便地完成特定搜索任务. 微软公司高级副总裁迈赫迪14日在旧金山举行的一个科技会议上演示了"视觉搜索"的操作方式.用户在使用时不必直接输入关键词,就可通过分门别类的图片库进行搜索. 目前,仍处于测试阶段的"视觉搜索"页面有娱乐.名人.参考信息.购物和体育等 5大类图片库, 它们下面又细分为近40个图片子库,如购