百度,请别动我的蛋糕(cookie)!

不靠谱

包子馅不靠谱,包子馅的报道更不靠谱。

韩国队不靠谱,日本队也不靠谱,中国队掉链子靠谱。

17tech说吕博望的报告不靠谱, 吕博望说CNNIC的报告不靠谱,雅虎觉得艾瑞报告不靠谱。

搜狗觉得易观报告的不靠谱,百度说,你们都不靠谱,我来做报告。

这是我在上一篇文章《谁的话不靠谱》的结尾。

最近不靠谱的事情太多,不靠谱的人也太多。不过,吕伯望的报告就因为四舍五入产生了0.1%的误差,遭遇质疑,笔者看来颇有些冤枉;而他在第一次IT龙门阵上所演示的CNNIC的报告的缺陷,倒有几分道理。之后的几份搜索报告(艾瑞和易观)也因调查结果大相径庭而遭遇了质疑,看来搜索报告还真没有多少靠谱的。

百度却是真的开始作报告了。最近百度新开辟了二级频道:百度数据研究中心(data.baidu.com),其中有六个行业的报告可供了下载,分别是银行行业、基金行业、网络游戏、汽车业、化妆品和家电业。

大型网站网络调查优势

我对大网站涉足咨询行业还是有些信心,他们至少能在数据源的样本数量上能得到充分的保证,照理说应该比较靠谱。吕伯望在回答我关于调查成本的问题时表示,电话调查虽然相对入户调查成本大大降低,但也因此产生了一些误差,调查受资金限制而产生了一些误差。在我看来,CNNIC只要把中国有多少上网人口调查出来即可,其他关于互联网用户更深入的调查完全可以通过网络问卷的方式完成。网络调查成本极低,而调查样本可以大大增加,数据的准确性也有了保证。因此,大型网站在数据收集方面拥有一定的优势。

百度的报告靠谱么?

百度虽然一下子编制了6本报告,人们却没有看到相关网络调查表,那么百度是通过什么方法获得数据的呢?笔者打开了其中的一份报告,关于调查方法是这样描述的:

搜索引擎能采集用户主动需求的文字表达(即关键词查询),因此对用户真实需求的把握较之门户网站更占优势。通过 Cookie 跟踪,能把关键词与具体的需求挂上钩。我们假设每一个Cookie 代表一个潜在消费者(在技术上和统计学上是成立的,同时技术后台可屏蔽掉多个用户使用的 Cookie,如网吧 Cookie),那么该 Cookie 在一定时间内的关键词集合能全面反映他(她)关注的信息。我们对这些信息进行系统编码、清理和分析,把不同 Cookie 检索的关键词进行交叉分析,发现网民搜索的群体行为,最后整合成行业报告。

原来百度是依靠用户的cookie和对关键词的整理分析生成的报告。那么百度的报告靠谱么?

从采样数量看,百度是中国流量最高的网站,每天访问人次数以亿计,百度的报告称采样的数量达到了百万数量级。可见,从调查用户的数量上看的确非常可观。

但从调查方法上看,笔者认为还是存在一定的漏洞。

其一、百度的技术后台“屏蔽掉多个用户的cookie”,那么意味着,网吧用户的统计被剔除掉。但国内网民在网吧上网的比例有1/3强,绝对数量巨大。去掉这些信息会导致结果出现偏差,这在网络游戏上的结果上最为 明显。

其二、国内上网用户还普遍存在一个家庭多个用户的情形,如夫妻共用一台电脑,家庭共用一台电脑的情形(笔者认为这些也比较普遍);

其三、某些用户使用多台电脑,例如笔者办公和家庭就使用不同的电脑,按照百度的统计口径,这些用户的数据被重复计算了,而这正是统计学所忌讳的。

其四、百度所有用户的调查结果是基于百度搜索用户的。非搜索引擎用户或者非百度用户,就难以统计进去,这部分用户的比例保守估计也在1/3左右(根据CNNIC的搜索引擎数据)。

因此,百度的报告正如CNNIC的报告一样,在计算方法上还存在一定的漏洞,尽管庞大的采样数据能够弥补其中一些不足。笔者认为百度的报告只具有一定参考意义,并不能完全反映行业全貌。

当然,笔者更关心的是百度是如何利用我们的cookie来制作报告的,百度是不是动了我们的cookie,动了我们的蛋糕。

百度,请别动我的蛋糕

Cookie,英文指就着牛奶一起吃的点心,我直接翻译为“蛋糕”。在因特网内,“cookie”这个字有了完全不同的意思。“cookie”是小量信息,由网络服务器发送出来以存储在网络浏览器上,从而下次这位独一无二的访客又回到该网络服务器时,可从该浏览器读回此信息。

Cookie可以保持登录信息到用户下次与服务器的会话,换句话说,下次访问同一网站时,用户会发现不必输入用户名和密码就已经登录了。我们在登录论坛的时候就经常发现这种情形。

百度的报告编制说明中,特意提到了Cookie:

通过“关键词组合”判断各个 Cookie 代表的个人信息,比如性别倾向、收入范围、行业领域的相关喜好,我们对各种需求有一个“群”的把握,比如刚毕业(21-23 岁)的女性的总体消费特征。

但百度不以具体用户的个人信息作为分析对象,一个 Cookie 只是收集需求(关键词)的桥梁,它代表的人其实是一个与实际需求相联系的虚拟人,我们完全不知道他(她)是谁,也没有联系方式,但通过他们的检索轨迹,我们可以知道他(她)的需求。

看来cookie在百度的报告中是十分关键的一环。它居然能让百度不利用传统的市场调查问卷,仅凭对用户cookie的分析,就能够收集各种个人信息:通过人们的检索轨迹,而得到用户的需求资料,最后形成报告。

百度所利用的cookie数据应该有以下两种:

第一种是大多数情况下,人们并不是登录百度就进行搜索的,由于没有录入帐号和密码,百度就没法通过用户ID和密码来区分调查个体(所谓的虚拟人),为了能够区分,百度不得不记录用户的一些电脑信息,如内网IP,操作系统信息,浏览器信息等等,否则就无法区分不同的用户。

第二种在用户登录的情况下(贴吧、知道博客等产品)使用搜索引擎,百度通过cookie记录下用户的ID和其他信息来区分不同对象。而这类用户信息在百度的数据库中可能更加详细,其中包括用户向网站提供的年龄、性别、职业等等非常全面的信息。

只有在完成此步以后,百度才有可能对收集到的人们检索轨迹进行归类,分析得到结果,否则,就只有一堆关键词,没有任何意义。

时间: 2024-08-01 12:34:44

百度,请别动我的蛋糕(cookie)!的相关文章

C#发请的请求中使用Cookie

问题描述 在网上找了一个C#发请的请求中使用Cookie,其中privatestaticstringSendHttpRequestGet(stringurl,Encodingencoding,CookieContainercookieContainer){if(string.IsNullOrEmpty(url))thrownewArgumentNullException("url");if(encoding==null)thrownewArgumentNullException(&qu

百度请给我一个收录的合理解释 听听站长的呐喊

国际在线综合消息:3月23日,谷歌宣布其搜索业务退出中国内地,并将搜索服务由中国内地转至香港.国务院新闻办公室网络局负责人就此发表了谈话.同时,谷歌宣布其搜索业务退出中国内地的事件也占据了许多美国媒体网站的重要位置. 我相信大家对上面的新闻并不陌生,我也相信许多站长在 谷歌退出中国市场之后,变的无法冷静下来了,因为谷歌走了,谁家欢喜谁家忧呢?欢喜的自然是中国互联网最大的搜索引擎-百度.忧的是谁呢?谷歌么?错了,忧的是我们这些新站长.大家都有自己的网站,网站是做什么的?难道真就是一个不"盈利&qu

百度请你睁亮眼睛 真正重视用户体验和友好度

今天依旧百度了一下"电商圈"这个关键词,结果令我大跌眼镜.前几天还撰文<对电商圈百度首页搜索结果的个人杂谈>,表示对百度搜索结果的抗议:首页收录进7个独立域名.本来是无可厚非的事,但关键问题是,这7个独立域名未必都是和电商圈真正相关的.他们无不例外的都是通过修改标题,并在网页里.正文里随意罗列安插关键词,最后搞的人不像人鬼不像鬼的文章.莫非在百度眼里,那些风牛马不相及的文章里,只因为出现了几次电商圈这个词,就成了地道的"电商圈"了? 而更令人气愤的是,今

申诉 百度请恢复对我的网站的收录

我不知道从现在开始我所写的这些文字投入到网络中能不能起一些作用,能不能让百度的人看到,能不能换回百度对我这个网站的收录.然而除了这个,我再也想不出有什么办法能救回我的网站. 我是山西的一个http://www.aliyun.com/zixun/aggregation/8817.html">个人站长,我的网站是一个装饰类的网上信息站,今年5月上线,从上线到现在两个多月时间来,感觉真的太累了,网站定位,内容添加,宣传等等,其中最大的困难来自于推广,5月中旬,百度开始收录了我的网站,最高时收录了

百度请让我们安全“摆渡”

近日武汉警方破获的假药案,让百度再陷"竞价门":一盒假药,成本31元,最终售价660元,其中高额利润并没落进假药制售者的口袋,有75% 左右交给了著名搜索网站:百度.这些卖假药的花大价钱去百度竞价,削尖脑袋去占领关键词搜索排行榜上的靠前位置,忽悠更多的消费者.(2010年07月22日 人民日报 ) 谷歌走了,百度更火了,可是,"竞价门"却让人感到少了竞争的无奈,尤其是百度的"无度",让人感到些许担忧,因为权威,所以信任.因为信任,所以"

百度请不要再沉默!

随着腾讯的QQ2007BETA2的公测,百度的世界排名降到第7位,腾讯的QQ紧随其后,腾讯的问问也来公测了,这样肯定会对百度带来很大的冲击.之所以腾讯敢如此扩展,与他们的广大的客户群体是离不开的.3月份就传言腾讯要推出问问,4月份就传言百度要推出邮箱,如今腾讯的问问已经公测了,百度应该做出什么相应对策呢?我建议尽早推出自己的IM.有几大问题要考虑:第一.百度推出IM应该什么时间时间最好是在6月1日之前,因为5月15日,腾讯的新版本要推出了.趁机百度也推出IM,也该对腾讯的QQ来一个比较大的冲击吧

GA/百度统计/Piwik:网站分析工具的Cookie设置和访次切分规则

目前主流的网站分析工具一般都是通过JavaScript检测的方式进行访问监控的,包括商业产品(Omniture).免费产品(GA/百度统计/CNZZ).开源产品(Piwik).虽然说原理大致相同,但是不同的工具在一些基础的统计方法上方式还是有一些微妙的差别.譬如,你在使用多种网站分析工具对同一个网站进行监控时,经常会发现不同的工具给出的Visits总是会有差异(绝对数量有差异,但趋势一致).即使理论上所有外部条件都一样,这种差异也是会存在的.这是因为不同网站分析工具在Cookie的使用和访次切分

卢聪:百度近期或将有大动作发生

百度最近似乎很平静,平静的让站长们有点摸不着头脑.但平静的湖面都掩饰不住湖底的暗流涌动.从之前520百度事件发生以来,相继有628百度大地震,和前期的利为汇被K,狼雨的上位.后期的这些都是针对网络营销这个行业来的.更确切的说是冲着seo来的,其他行业的变化还是很小的.还是之前写过的一句话:"拿什么来爱你,百度..."百度你是真的要和草根站长抢饭碗吗? 那我就没事找事做的分析下百度近期会有大动作的原因吧,各位看官别喷饭哇.下面的内容都是笔者的臆想.说意淫也可以.   试探--百度初体验

web前端-ajax请求如何携带cookie

问题描述 ajax请求如何携带cookie 想通过ajax请求访问某网站,需要携带上指定cookie, 网上百度一下,知道不能直接设置cookie,但是说可以在ajax请求之前设置写cookie来实现 这样发送的报文头中就会包含cookie document.cookie=mycookie; var xhr=new XMLHttpRequest(); xhr.onreadystateChange=parseCookies; xhr.open("GET","http://192