如何通过一张图片,找到另一张图片?

  如果用户给出一张图片,百度识图会判断里面是否出现人脸,如果有,百度识图在相似图片搜索之外,同时会全网寻找出现过的类似人像。

  如何通过一张图片,找到另一张图片?

  对于搜索引擎而言,寻找图片之间的内在联系,与常见的关键词搜索并没有本质区别都是通过关键特征的比对,按照一定的逻辑规则完成匹配。然而不同之处也是显而易见的,以图片为输入发起的搜索,存在多种搜索含义的可能。

  比方,一张图片可能既包括风景又包括人,用户想要寻找的是类似风景、类似布局结构的图片还是类似的人?谷歌以图搜图功能,甚至可以根据一张图片猜出拍摄地,但并不会尝试对图片中的人物精确匹配。多数搜索引擎都会如此。

  而且大部分以图片作为输入的搜索引擎,例如tineye(2008年上线)、搜狗识图(2011年上线)等,本质上是进行图片近似拷贝检测,即搜索看起来几乎完全一样的图片。2010年推出的百度识图(shitu.baidu.com)也是如此。

  在经历两年多的沉寂之后,百度识图开始向另一个方向探索。

  上周的百度年会中,李彦宏特意提到百度识图:“以图搜图的准确率从20%提升到80%”。不过与之前相比,百度识图找到相似图片的能力似乎并未显著提升,那么改变从何而来?李彦宏把这种明显的提升归因于刚上线的人脸识别搜索。

  与之前的区别在于,如果用户给出一张图片,百度识图会判断里面是否出现人脸,如果有,百度识图在相似图片搜索之外,同时会全网寻找出现过的类似人像。

  新增加的技术简而言之,首先是人脸检测并提取出特征表达,随后再据此进行数据库对比,最后按照相似度排序返回结果。其实,人脸检测并不是新技术,相关研究已有三十年历史,然而直到去年底,百度才决定推动这一技术付诸实施。

  这里面自然有战略层面的考虑。两年前,李彦宏就对未来做出读图时代的判断;去年的KDD大会上,李彦宏提出的九大待解技术挑战中,基于内容的图像搜索技术被列在第三;现实层面百度的图片相关产品、云相册等均对这一技术有需求。

  百度还希望借助这一途径,挖掘图片之间的联系,进而激发二次浏览。然而要把想法变为现实,百度至少要解决两个问题:一是算法,二是数据。

  算法方面。同样是基于图片进行搜索,人脸识别和以图搜图并不一样。百度资深工程师陶吉告诉创事记,百度人脸识别首先并不关注完整的图像结构,其次颜色也没有任何意义。最主要的特征表达来自于脸部纹理,并进行一些再加工。

  具体算法作为商业机密,难以对外界披露。不过资料显示,目前人脸识别算法中LBP是比较流行的一种特征提取方式,即通过像素周边8个临近像素的灰度值和中心灰度值比较,得到一个八位编码,然后再根据编码的直方图进行分类。

  而影响算法效果的因素还可能包括预处理、特征选择、特征点定位精度、分类器设计和后处理乃至各种方式的融合、阈值选择等各个方面。

  一张图片中,人脸至少有40×40像素(约一个指甲盖大小),才会被当作有效的识别对象。如果一张图片中多个人像,目前百度的解决办法是仅识别尺寸最大的那个,未来百度将提供焦点选择功能,用户可以通过选点确定搜索对象。

  数据方面。算法的改善如果算是充分条件,数据的处理则是必要条件。从机器搜索的角度看,光照、姿态、表情、角度等因素,均是影响巨大的因素,所谓“笑和不笑,都是不同”。所以用来训练的数据量越大,变化的包容性就越好。

  人脸识别搜索实际使用时,同一张人脸积累的数据越多,越能在匹配对比时提供更好的支持。为此百度需要把全网近百亿规模的图片抽取出来,然后把没有人脸的数据去掉,再海量扫描一遍,建立起尽量高效的索引。

  人脸识别引入搜索引擎,必然会加剧外界关于隐私泄漏的担心。百度强调人脸搜索只会在公开的信息范围内进行, 闭的个人相册并不会被触及。

  这还涉及准确率、召回率等概念。假设数据库里有一百张刘德华的图片,用刘德华的头像发起搜索,前50张结果中40张是真正的刘德华,那么前50张的召回率就是40%,准确率是80%。同样假如数据库中只有两张路人甲的图片,当用路人甲的头像发起搜索,前50张可能只有1张真正的路人甲,那么前50张的召回率是50%,准确率是2%。

  由于名人在网上的照片较多,能被用户感知到的准确率要比普通人高很多,而召回率是用户感知不到的。据透露,人脸识别搜索技术会在百度云相册内部进一步结合,帮助用户在图片之间建立联系,而且未来不排除开放API的可能。

  除了上述技术讨论之外,从百度的研发体系看,人脸识别搜索也颇具代表性。

  这个先后投入几十个工程师、百度基础技术部的多媒体部门负责核心算法的项目,去年11月下旬立项,12月底就已经上线运行。这个速度在百度并不常见,因此也有人半开玩笑的说这是百度近期“改作风”运动成效的代表。

  值得注意的是百度新成立的基础技术部。这个部门由百度首席科学家王海峰带领,并且直接向李彦宏汇报。据说一些李彦宏会亲自参与一些重点项目。自然语言处理、互联网数据挖掘、多媒体、推荐和个性化等技术研发,均由百度基础技术部负责。

  还是在百度年会上,谈及近期遇到的挑战,李彦宏称百度不会忽视渠道的价值,但技术才是未来产业的关键。“相信技术的力量,未来就在我们手里”,李彦宏发出这样的号召。显然,百度的“变奏”已是必然要上演。

时间: 2024-10-01 11:05:06

如何通过一张图片,找到另一张图片?的相关文章

如何通过一张图片,找到另一张图片?

摘要: 如果用户给出一张图片,百度识图会判断里面是否出现人脸,如果有,百度识图在相似图片搜索之外,同时会全网寻找出现过的类似人像. 如何通过一张图片,找到另一张图片? 对于搜 如果用户给出一张图片,百度识图会判断里面是否出现人脸,如果有,百度识图在相似图片搜索之外,同时会全网寻找出现过的类似人像. 如何通过一张图片,找到另一张图片? 对于搜索引擎而言,寻找图片之间的内在联系,与常见的关键词搜索并没有本质区别--都是通过关键特征的比对,按照一定的逻辑规则完成匹配.然而不同之处也是显而易见的,以图片

java能实现读取一张图片,给这张图片整体颜色加深吗?有大牛知道吗

问题描述 java能实现读取一张图片,给这张图片整体颜色加深吗?有大牛知道吗 比如我有张图片,图片整体颜色很淡,这时候我需要整体加深颜色,java有没有什么办法 解决方案 import java.awt.AlphaComposite; import java.awt.Color; import java.awt.Font; import java.awt.Graphics2D; import java.awt.Image; import java.awt.geom.AffineTransform

图片比对-java比对两张图片是否为同一张图片

问题描述 java比对两张图片是否为同一张图片 现在的比对方法是将图片读成流,然后取出这个流的哈希值进行比对,但是效率太低,有没有什么方法可以高效的判断两张图片是不是同一张图? 解决方案 1.先判断图片文件大小:大小不一致,肯定不是同一张图片: 2.判断图片的长和宽,长宽不一致,肯定不是同一张图片: 3.不需要进行哈希,直接比较图片的内容.每次读取一定数量的字节,进行比较:直到,有不同的字节,判断为不是同一张图片:或者,两张图片同时读取完毕.并且全部字节相同,可以判断为同一张图片.这种方式适合于

插入一张图片,并用这张图片进行外部超链接,怎么做啊

问题描述 新人刚开始学MicrosoftVisualStudio2008想做个友情链接到其他网站,比如链接到网易我插入了张图片,怎么设置点击此图片就链接到网易呢感谢各位,急 解决方案 解决方案二:前台代码:<ahref="http://www.163.com/"><imgalt=""src="images/b1.jpg"/></a>解决方案三:<imgsrc="图片URL"onclic

SEO叫板一张图片 引发站长多层思考

最近在一个论坛中看到一张图片,不管这张图片是有谁发出的,并且是否经过ps,但整体而言,这张图片的确引起了站长很多的关注,图片如下:   seo会永生吗?都说互联网行业中没有永生的神话,seo会创造这个神话吗?有来自两个方面的观点. 一.不会永生 一个网友是这样表述的"看看这个伟大的墓碑,似乎就是在为seo曾经的辉煌画上完美句号,不断更新的引擎算法之下,seo还能走多远?"经过笔者了解之后,发现在628百度更新之下,词此站长朋友的网站被k了,所以表述的观点职工参考. 二.SEO永远不会消

火车头免费版为zencart网站采集多张图片

相信很多刚开始学习火车头的菜鸟们,也和烂泥一样使用的是火车头免费版,然后为我们的zencart网站进行一些产品数据的采集.但是在写采集规则的时候,会经常碰到的一个问题就是如何采集一个产品的多张图片. 采集一张图片的规则,相信大家都会写了.那么多张图片呢?如何写呢?其实,这个和我们写采集一张图的是一样的,只是在一些细节上面设置正确就ok了.下面我就自己采集的一个站点给各位做一下讲解. 我们知道要采集一个网站的图片,那么我们肯定是在火车头使用img标签来进行的. 要采集多张图片,我们肯定要找出来这些

java用openoffice转pdf只有一张图片

问题描述 java用openoffice转pdf只有一张图片 java用openoffice转换word到pdf不管word多少张图片pdf只有一张图片.哪位大神知道啊?在线等. 解决方案 openoffice转pdf让Java与OpenOffice调情(转)openOffice服务html转PDF中文乱码问题

大神经验:怎样分辨照片是否经过PS处理过

我分享一下我的经验吧.我就不去讨论那些专业的数码变化原理了,我从实用主义的角度来阐述一下这个问题.我把判断一幅照片是否PS的方法分为四类: 事实不能 物理不能 摄影不能 细节不能 事实不能 事实不能就是根据人一般的经验就可以认定这个是不可能的. 它分为两类: 1:明显的事实不能 2:逻辑的事实不能 明显的事实不能是指根据人一般的经验,违背明显生活常识就能判断的图片,比如一个人跳了十米高. 逻辑的事实不能是指图片本身没有问题,但根据其他条件会产生逻辑上的矛盾,比如明明才六月份,照片里的银杏却都黄了

利用Python实现简单的相似图片搜索的教程

  利用Python实现简单的相似图片搜索的教程         这篇文章主要介绍了利用Python实现简单的相似图片搜索的教程,文中的示例主要在一个图片指纹数据库中实现,需要的朋友可以参考下 大概五年前吧,我那时还在为一家约会网站做开发工作.他们是早期创业公司,但他们也开始拥有了一些稳定用户量.不像其他约会网站,这家公司向来以洁身自好为主要市场形象.它不是一个供你鬼混的网站--是让你能找到忠实伴侣的地方. 由于投入了数以百万计的风险资本(在US大萧条之前),他们关于真爱并找寻灵魂伴侣的在线广告