百度还将会抓取图片的那些信息呢

摘要: 刚才在网上看到一则新闻,讲360的图片搜索功能beta版正式上线,于是就去使用了一下。发现306图片搜索目前支持的检索条件仅局限于图片的尺寸大小,这个功能相对百度图片搜索的众多

刚才在网上看到一则新闻,讲360的图片搜索功能beta版正式上线,于是就去使用了一下。发现306图片搜索目前支持的检索条件仅局限于图片的尺寸大小,这个功能相对百度图片搜索的众多精准设置项,还尚显单一。百度之所以能够提供这么多的图片检索条件,说明它已经建立了更为全面的的图片信息索引库,那么百度在收录图片的时候,都会抓取图片哪些信息以方便网友的精准搜索呢?

我们都知道,目前图片搜索的主要依据是图片的alt和title的定位文字,也就是说,我们在搜索图片的时候,只有当我们搜索的关键词与图片的定位文字相匹配,图片才会出现在检索结果中。除了图片的定位文字,百度还将会抓取图片的那些信息呢?我们来看下百度搜索的筛选项,借此来分析百度的图片抓取信息项。

1.图片格式;

这是在百度图片搜索首页点击-高级之后进入的高级搜索截图,通过这个界面我们可以直观的发现,除却关键词和图片限定网址之外,目前百度可以提供jpg、gif、bmp、png四种格式的图片检索,也就是说,百度在收录图片的时候,图片格式将作为一个信息点被抓去并建立索引。

2.图片的抓取时间;

举例来说,我们在百度搜索圣诞节,排在前面的图片基本上都有一个抓取时间的提示,这说明百度对于新抓取的图片会在搜索的死后默认把它们排在前面。其他长较早抓取的图片则以快照时间来标识。

3.图片的像素大小;

在图片搜索结果左侧,有一列筛选的功能选项。首先是图片尺寸,百度也提供了按照预设精准的图片尺寸来进行检索。这表明百度在收录图片时会抓取并记录图片的精确尺寸数据。

4.整个图片的色彩分布数据;

百度提供了根据特点色彩来筛选图片,目前支持12种色彩的筛选。通过这个功能我们可以推测出,百度在收录图片的时候,会按照某种颜色在整个画面中所占比例的阙值,把图片按照这12种颜色来分类,并以此为据建立一个检索项供网友精确筛选。

5.图片的动静格式;

上面有讲到,目前百度收录4种格式的图片,继而又把这四种图片按照动态和静态划分为两类。但我在筛选的时候发现,百度这个检索项只不过把gif格式的图片单独拿出来,默认为它是动态图片,而其他三种格式的图片则归为静态图。

6.图片主要展示的内容;

百度最后一个精准项提供的筛选项我们可以判断,实际上百度目前已经初步能够对图片展示的内容做一定的判断评价了。虽然说这个功能现在还很弱,但对搜索引擎来说,毕竟迈出了图像表达内容识别的一步。可以预测,将来百度对于图片展现的内容将会有更多的识别技术出现。

众所周知,目前百度对于图片的抓取相对文字内容来说还是比较薄弱的,但同其他搜索引擎比如360的图片搜索来说,百度还是具备相当的领先优势的。当然,我们也不能对360太过苛求,毕竟3B大战也才刚刚拉开帷幕,相信二者以后在搜索领域里的碰撞将会更多。站在用户的角度上考虑,我们希望3B的每一次碰撞都能给我们带来更精彩的搜索体验。

时间: 2024-09-22 20:07:07

百度还将会抓取图片的那些信息呢的相关文章

如何抓取百度知道页面里面问题答案的 ‘评论’ 信息。。

问题描述 如何抓取百度知道页面里边问题答案的'评论'信息.现在我用jsoup能抓到整个页面,但是评论内容是要通过点击'评论'才能加载下面内容.所以现在无法获取评论信息.我用phantomjs模拟浏览器来点击评论,但貌似无法成功.然后现在怀疑这种方法是否可行.求大神指导或者推荐其他方法.... 解决方案 解决方案二:模拟浏览器的点击可以不解决方案三:没用过phantomjs."但是评论内容是要通过点击'评论'才能加载下面内容.所以现在无法获取评论信息"看了一下这个功能是通过ajax来加载

实战分析百度站长工具之抓取诊断工具详解

做谷歌优化的朋友对谷歌管理员工具一定不陌生,在谷歌管理员工具中,有"像谷歌一样抓取"功能,现在做百度优化的朋友福利也来了,百度站长工具最近推出"抓取诊断"工具,通过该功能可以更好的辅助SEO优化工作,下面就给大家解释一下该功能的用法和注意事项. 什么是抓取诊断工具 抓取诊断工具,可以让站长从百度蜘蛛的视角查看抓取内容,自助诊断百度蜘蛛看到的内容,和预期是否一致. 每个站点每月可使用300次,抓取结果只展现百度蜘蛛可见的前200KB内容. 注意:要使用抓取诊断工具,前

python爬虫抓取图片的疑问和原理

问题描述 python爬虫抓取图片的疑问和原理 我想问一下 最简单的抓取图片保存下来的原理 如下面这段代码 response=urllib.request.urlopen("http://ww3.sinaimg.cn/mw600/006h1GB2jw1f1hbjv1eiwj30zk0qo44l.jpg") html=response.read() with open("ddd.JPG","wb") as f f.write(html) 这里htm

PHP采集类Snoopy抓取图片实例_php实例

用了两天php的Snoopy这个类,发现很好用.获取请求网页里面的所有链接,直接使用fetchlinks就可以,获取所有文本信息使用fetchtext(其内部还是使用正则表达式在进行处理),还有其它较多的功能,如模拟提交表单等. 使用方法: 先下载Snoopy类,下载地址:http://sourceforge.net/projects/snoopy/ 先实例化一个对象,然后调用相应的方法即可获取抓取的网页信息 复制代码 代码如下: include 'snoopy/Snoopy.class.php

CodeIgniter实现从网站抓取图片并自动下载到文件夹里的方法_php实例

本文实例讲述了CodeIgniter实现从网站抓取图片并自动下载到文件夹里的方法.分享给大家供大家参考.具体如下: 因为某网站看图比较坑爹,要一页一页的翻页....所以....就写了这么个东西 (我是产品不是程序员)运行速度简直无法忍受,而且经常会有错误发生,所以希望大家帮忙改进(PHP). 当然也欢迎看到PYTHON,GOLANG的版本~~^_^ 1. controllers: $this->load->helper('date'); $this->load->helper('p

搜狗王小川首度回应搜狗虚假医药医疗广告比例比百度还高说法

近日,沉默多日的搜狗CEO王小川接受了著名IT记者李瀛寰的采访,在这个一问一答的采访中,王小川首次谈起搜狗收购案,包括与360.腾讯谈判过程中的那些鲜为人知的细节.文章中,王小川不仅透露了各家对搜狗的估值,甚至首度回应搜狗虚假医药医疗广告比例比百度还高的说法,王小川表示:"360是不做医药广告,但不能说所有接医药广告的人就是坏蛋." 近十年来,虚假医药医疗广告一直是搜索引擎行业甚至整个传媒业挥之不去的阴影,媒体虽然依靠医药医疗广告赚了巨额广告费,但也让很多患者因此受害,同时医药医疗广告

域名还被停放过,百度还会收录吗?

听说买来的http://www.aliyun.com/zixun/aggregation/43.html">域名"很麻烦",买了一个以后,才知道哪里最麻烦.交易过程并不麻烦,两三天就搞定了,费用也不高,本以为就可以开始做站历程了,谁知道百度不收录.开始还以为是更新不够的原因, 于是努力更新了一个多月.还是没收录.四月份买的域名,到了六月,百度没啥动静,看LOG,大概来了五六次,每次间隔10天以上. 回头研究了下,发现这个域名买来之前,被域名停放过(或者说是,被域名贩子放

奇虎360“内外夹击”,百度还能Hold住吗?

中介交易 SEO诊断 淘宝客 云主机 技术大厅 前段时间3B大战打的如火如荼,一再成为互联网关注的焦点.最后在国家相关部门的调停中落下帷幕.至此,3B大战真的结束了吗?很多人认为3B大战其实才刚刚开始,在3B大战表面平静的背后,实则是暗战汹涌.自上次3B大战,网曝360安全卫士把百度工具栏和百度地址栏搜索列为差评插件,继而360宣称要利用浏览器优势过滤百度广告.近日奇虎360又出奇招,利用360安全浏览器来打劫百度流量,而且矛头直指百度.如图: 当你用360安全浏览器打开百度搜索,搜索360软件

360称百度凤巢部署偷拍插件收集用户信息

360称http://www.aliyun.com/zixun/aggregation/37756.html">百度凤巢部署偷拍插件收集用户信息 TechWeb配图 [TechWeb报道]1月28日消息,上周末360指责百度推广后台禁用360浏览器一事继续发酵.360今日召开媒体发布会,称百度凤巢正在大规模部署"偷拍插件",收集用户信息,并针对360浏览器进行不兼容提示. 360安全浏览器产品总监陶伟华表示,百度对其插件注册名称为Baidu.Medusa(美杜莎),该插