从百度图片筛选条件分析百度抓取收录图片哪些信息

  刚才在网上看到一则新闻,讲360的图片搜索功能beta版正式上线,于是就去使用了一下。发现306图片搜索目前支持的检索条件仅局限于图片的尺寸大小,这个功能相对百度图片搜索的众多精准设置项,还尚显单一。百度之所以能够提供这么多的图片检索条件,说明它已经建立了更为全面的的图片信息索引库,那么百度在收录图片的时候,都会抓取图片哪些信息以方便网友的精准搜索呢?

  我们都知道,目前图片搜索的主要依据是图片的alt和title的定位文字,也就是说,我们在搜索图片的时候,只有当我们搜索的关键词与图片的定位文字相匹配,图片才会出现在检索结果中。除了图片的定位文字,百度还将会抓取图片的那些信息呢?我们来看下百度搜索的筛选项,借此来分析百度的图片抓取信息项。

  


 

  1.图片格式;

  这是在百度图片搜索首页点击-高级之后进入的高级搜索截图,通过这个界面我们可以直观的发现,除却关键词和图片限定网址之外,目前百度可以提供jpg、gif、bmp、png四种格式的图片检索,也就是说,百度在收录图片的时候,图片格式将作为一个信息点被抓去并建立索引。

  


 

  2.图片的抓取时间;

  举例来说,我们在百度搜索圣诞节,排在前面的图片基本上都有一个抓取时间的提示,这说明百度对于新抓取的图片会在搜索的死后默认把它们排在前面。其他长较早抓取的图片则以快照时间来标识。

  3.图片的像素大小;

  在图片搜索结果左侧,有一列筛选的功能选项。首先是图片尺寸,百度也提供了按照预设精准的图片尺寸来进行检索。这表明百度在收录图片时会抓取并记录图片的精确尺寸数据。

  4.整个图片的色彩分布数据;

  百度提供了根据特点色彩来筛选图片,目前支持12种色彩的筛选。通过这个功能我们可以推测出,百度在收录图片的时候,会按照某种颜色在整个画面中所占比例的阙值,把图片按照这12种颜色来分类,并以此为据建立一个检索项供网友精确筛选。

  5.图片的动静格式;

  上面有讲到,目前百度收录4种格式的图片,继而又把这四种图片按照动态和静态划分为两类。但我在筛选的时候发现,百度这个检索项只不过把gif格式的图片单独拿出来,默认为它是动态图片,而其他三种格式的图片则归为静态图。

  6.图片主要展示的内容;

  百度最后一个精准项提供的筛选项我们可以判断,实际上百度目前已经初步能够对图片展示的内容做一定的判断评价了。虽然说这个功能现在还很弱,但对搜索引擎来说,毕竟迈出了图像表达内容识别的一步。可以预测,将来百度对于图片展现的内容将会有更多的识别技术出现。

  众所周知,目前百度对于图片的抓取相对文字内容来说还是比较薄弱的,但同其他搜索引擎比如360的图片搜索来说,百度还是具备相当的领先优势的。当然,我们也不能对360太过苛求,毕竟3B大战也才刚刚拉开帷幕,相信二者以后在搜索领域里的碰撞将会更多。站在用户的角度上考虑,我们希望3B的每一次碰撞都能给我们带来更精彩的搜索体验。

  本文由http://www.8dai.cn网站运维人员原创,问责自负。由A5站长网独家首发,转载麻烦保留网站和A5链接,谢谢您的支持!

时间: 2024-11-03 22:34:33

从百度图片筛选条件分析百度抓取收录图片哪些信息的相关文章

百度UEditor编辑器如何关闭抓取远程图片功能

 这个坑娘的功能,开始时居然不知道如何触发,以为有个按钮,点击一下触发,翻阅了文档,没有发现,然后再网络上看到原来是复制粘贴非白名单内的图片到编辑框时触发,坑娘啊............... 问题又来了:今天在写百度UEditor编辑器的[取远程图片功能]时有碰到:该功能如何关闭了? 又花了15分钟左右的时间查阅了[官方文档]以及[官方论坛],都没有找到解决办法,那就查阅下源文件看看,是否有相关的判断呢(本人JS非常烂) 于是马上查阅:ueditor.all.js文件,发现如下代码   代码如

百度UEditor编辑器如何关闭抓取远程图片功能_javascript技巧

这个坑娘的功能,开始时居然不知道如何触发,以为有个按钮,点击一下触发,翻阅了文档,没有发现,然后再网络上看到原来是复制粘贴非白名单内的图片到编辑框时触发,坑娘啊............... 问题又来了:今天在写百度UEditor编辑器的[取远程图片功能]时有碰到:该功能如何关闭了? 又花了15分钟左右的时间查阅了[官方文档]以及[官方论坛],都没有找到解决办法,那就查阅下源文件看看,是否有相关的判断呢(本人JS非常烂) 于是马上查阅:ueditor.all.js文件,发现如下代码 复制代码 代

百度lee:建立符合搜索抓取习惯的网站

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 之前百度站长lee给大家介绍了搜索抓取系统工作原理,根据该工作原理今天简要介绍一下如何建立网站是符合搜索引擎抓取系统习惯的. 1.简单明了的网站结构 Spider抓取相当于对web这个有向图进行遍历,那么一个简单明了结构层次分明的网站肯定是它所喜欢的,并尽量保证spider的可读性. (1)树型结构最优的结构即"首页-频道-详情页&

php中如何抓取网页图片

PHP是一门很容易上手的Web编程语言.PHP学习成本很低,能够迅速开发各种Web应用,是一个很优秀的工具. 尽管很多人觉得PHP缺点很多,quick and dirty 之类的,但是"这个世界上只有两种编程语言,一种是饱受争议的,一种是没人用的",不是吗?只要能够把事情做好的工具,就是好工具.PHP就是这么一个优秀的语言工具. 01.<?php 02.header('content-type:text/html;charset=utf-8');03. set_time_limi

用于抓取网页图片的javascript脚本

脚本内容 (没有换行): javascript:void(function(g,d,m,s){g[m]?(g[m].c=1,g[m]()):!d[m]&&(d.getElementsByTagName('head')[0]||d.body).appendChild((d[m]=1,s=d.createElement('script'),s.setAttribute('charset','utf-8'),s.id='wantu-script',s.src='http://a.tbcdn.cn

用Node.js通过sitemap.xml批量抓取美女图片

  这篇文章主要介绍了用Node.js通过sitemap.xml批量抓取美女图片的方法和相关代码,有需要的小伙伴可以参考下. 之前看了很多个版本,自己也搞一个. 1. 支持指定保存到哪个目录 2. 按文章进行分目录存放 3. 支持设置并行下载上限 下次有空再搞个整站下载的. package.json ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 { "name": "me2sex-images", "version&qu

详解JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片_java

利用Java抓取网页上的所有图片: 用两个正则表达式: 1.匹配html中img标签的正则:<img.*src=(.*?)[^>]*?> 2.匹配img标签中得src中http路径的正则:http:\"?(.*?)(\"|>|\\s+) 实现: package org.swinglife.main; import java.io.File; import java.io.FileOutputStream; import java.io.InputStream;

php抓取网站图片并保存的实现方法_php技巧

php如何实现抓取网页图片,相较于手动的粘贴复制,使用小程序要方便快捷多了,喜欢编程的人总会喜欢制作一些简单有用的小软件,最近就参考了网上一个php抓取图片代码,封装了一个php远程抓取图片的类,测试了一下,效果还不错分享给大家,代码如下: 以上就是为大家分享的php抓取网站图片并保存的实现方法,希望对大家的学习有所帮助.

基于php实现七牛抓取远程图片_php实例

由于公司网站之前的用户头像都是存储在自己的服务器上的,后来感觉管理不方便,新增加的用户头像都上传到了七牛,为了方便统一管理,领导说把本地服务器的头像全部迁移到了七牛. 1.梳理下思路 先判断用户的头像是否在七牛,若不存在,本地如果有则抓取到七牛,然后进行批量抓取 2.七牛判断图片是否存在 /** * 查看七牛url是否存在 * @param string $url */ function url_exists($url) { require_once(COMMON_PATH."qiniu/rs.