大数据三理解

关于大数据概念,大家一提就是好多年。提到大数据的时候,也就个性化、精准化这么点说头,大家也只能想到这些。不为人知的是,其实IBM和很多大互联网公司早就在很多年前就提到了这个话题。但等到它真正展现出产品化或者商业化的价值的时候,却是在2011、2012年以后。

  这种情况的出现是有其原因的:

  第一,是这两年确实是随着社会化媒体的普及、数据的量爆发式的增长。大家每天在网上分享的文字、图片、视频,它的数据的规模要超过我们历史上任何时期。有价值的信息也越来越多。历史上,很多年前大家上互联网,信息无非就是各种网页,小网站、大网站。信息的价值不像现在这么充分。现在太多的信息反映了各位的动机或者各位的兴趣特征。比如说我儿子三岁,我经常会发我儿子的照片,发一些养孩子的心理感受。结果他就曝露了我兴趣的方向。这对我们数据的应用会很有帮助。不像以前你顶多看各种各样的网页,各家的网页也没有办法统一做大数据的分析。

  还有一个比较重要的一点,也是我感触比较深的一点是开放。我们以前提到个性化,大家听过最多的有关大数据的案例就是沃尔玛的尿不湿,那就是大数据的雏形,如果我们把这个数据运用到网站说,大家想到最多的就是隐私。因为你的兴趣爱好触犯了我的隐私。但是现在微博、Twitter,facebook,很多社交化媒体的典型特点是开放的。QQ和微博最大的区别是,QQ的关系链,你的朋友是谁,大家是不知道的,前提是这是你的隐私。但是微博,你收听了谁、关注了谁,你发的每一条微博所有人都看得到。你使用这个产品,相当于你签了一个协议,我要开放。不能说你在这个基础上做一些数据的应用是侵犯隐私,这个在理论上是不成立的。因为每个人的特征,哪怕技术不去做,我们用肉眼把你的微博拉下来看一下,也大概能看一下你的领域,或者你的兴趣。这也给我们做大规模数据挖掘应用提供了一个非常大的前提。隐私的问题在产品形成之前就解决了。

  我这里简单列了一下微博的数据情况,我们每天发的微博,还有图片,现在都是以数百亿的来计算。这里面有一个,除了你发微博本身,还有一个重要的就是社会网络,就是你的人际关系。在QQ的时候是没有办法做分析的,因为他是有隐私的。但是微博非常好的一点,你的社会关系我们可以很放心的来使用。因为是公开的。在腾讯微博这样一个产品里面,你会发现社交关系的数量达到了三百亿的量级。这里面有一个传播路径,你发了一条信息,它的传播的可能性轨迹,达到了万亿级别的路径。这就是一个很大的大数据。大家很难想象,微博这样一个产品,这样大的一个产品体系里面,我们拥有近千台的服务器用来计算,还不是用来做产品,不是用来提供服务,只是用来做离线的计算,运算出各种公式和结果,就需要近千台服务器。这些服务器和几年前的服务器性能、规模都有很大的区别,每台服务器的存储空间都有数个T,我们有近千台数个T的服务器做运算。这么简单的一件事情,就需要近千台服务器帮助大家运算,你到底跟哪个人可能是朋友,到底跟哪个人是你感兴趣的领域。在那天地震的时候,我们快速的分析出,运算一下现在有哪些地震情况,还是蛮有意思的,地域的分布,这些都是大数据的运用。大数据有两大类数据可以用。第一类是微博里面非常重要的,你发表、收听和关注这些全都是公开的。有一部分影视数据是典型浏览行为。这部分还是牵扯到应用情况。所以用的谨慎一些。

  大数据能做什么?我们那么多地方探讨大数据,无非总结下来就做三件事:

  第一,对信息的理解。你发的每一张图片、每一个新闻、每一个广告,这些都是信息,你对这个信息的理解是大数据重要的领域。

  第二,用户的理解,每个人的基本特征,你的潜在的特征,每个用户上网的习惯等等,这些都是对用户的理解。

  第三,关系。关系才是我们的核心,信息与信息之间的关系,一条微博和另外一条微博之间的关系,一个广告和另外一个广告的关系。一条微博和一个视频之间的关系,这些在我们肉眼去看的时候是相对简单的。

  比如有条微博说这两天朝鲜绑架我们船的事,那条微博也大概是谈这件事的。人眼一眼就能看出来。但是用机器怎么能看出来这是一件事,以及他们之间的因果关系,这是很有难度的。然后就是用户与用户之间的关系。哪些人你愿意收听,是你的朋友,哪些是你感兴趣的领域,你是一个音乐达人,你是一个吃货,那个用户也是一个吃货,你愿意收听他。这就是用户与用户之间的关系理解。还有用户与信息之间的理解,就是你对哪一类型的微博感兴趣,你对哪一类型的信息感兴趣,如果牵扯到商业化,你对哪一类的广告或者商品感兴趣。其实就是用户与信息之间的关系,他无非是做这件事。

  大数据说的那么悬,其实主要是做三件事:对用户的理解、对信息的理解、对关系的理解。如果我们在这三件事之间还要提一件事的话,一个叫趋势。他也是关系的一种变种,只是关系稍微远一点,情感之间的分析,还有我们政府部门做的舆情监控。他可以监控大规模的数据,可以分析出人的动向。在美国的好莱坞,这两年也是基于FACEBOOK和TIWTTER的数据来预测即将上映的电影的票房。他也是一个趋势的分析,只是我们把这个趋势提前来。核心就是这三件事。

  为什么要讲这些呢?

  因为这些在我们新版里面都有很充分的体现。我们的新版要做什么。新版核心是要做提高阅读效率这件事。微博本身的形态就是很碎片化的。这个碎片化还不是因为大家上网的时间碎片化,我指的是信息的碎片化。微博就是那一百来个字,你收听、关注了哪些人都是很随机的,你看信息是非常零碎的。你看到一件事情的时候基本上不可能在微博上看到它的全貌。一个人说了几句,金三胖真过分,又抓我们渔民,你能知道这件事是什么吗?你要想知道这件事是什么。高端的人还可以搜一搜,倒腾这件事。对于一些小白来说,他根本不知道这件事是什么。新闻门户这个时候就很重要。新闻门户我点来点去,他大概就能看出这件事是什么。这和产品本身有关。但是也和这两年随着大家上微博越来越多,信息爆炸、信息过载有关。现在我收听了一千多号人,如果十分钟不看的话,就一定是一百条以上没有看。有很多我关注的信息也可以遗漏在这一百条,或者几百条信息里面。几百条里面有大量的营销、笑话、段子,我很感兴趣的我的前女友的动态就被这些段子埋没进去了。但是我的前女友又不太活跃。她甚至一两个星期才发一条微博,基本上很难看得到。这就是我们微博产品本身的特点。所以我们通过几个功能来解决信息获取的效率。第一个是从内容的角度对微博进行分类,我们的频道是通过内容的角度把内容归类,把优质内容提取出来。微热点也是从内容的角度把内容进行分类。庐山地震,别人只提了几个字,在你的顶栏里面就会出现庐山地震的内容,这是对内容进行分类。第二,从人的角度把信息分类,我们新版会推出一个东西,叫微圈,他是智能的分组。尤其是我们这些比较活跃的人,你可能收听了八百、五百人,你有没有耐心一个一个的分一个组?这是很难的,大部分人不会做这件事。所以我们是智能的分组,你什么都不用管,直接帮你分好。我的前女友我可以建一个前女友群,我要看她的消息,我就点到那个群里,可以分类的看这些人的动态。

  举一个对用户理解的能力,大家都知道李开复是这样的,大家都知道他在微博里面有这么多我们可以分析的技术的点。这些点牵不牵扯到隐私?你去他的网页上看一看也可以得到这些结论。只是这么多的点,你能不能凭应用分析出来。

  最后再总结一下大数据是干吗的。

  这两年再怎么提大数据,它和历史上出现的许多技术一样,它只是一种能力和技术而已,只是一种工具而已。只是这两年由于数据规模的扩大,以及基于大数据诞生了很多新的产品和商业化的形态。所以我们才这么火的来提它。其实它还只不过是一种工具而已。我们的总结是基于大数据解决用户的需求,提供一种最优质的服务才是最终目标,大数据只是工具而已,并没有那么悬。

在目前为止,基于大数据的应用大都还局限在商业化为主。更多的还是提怎么做精准广告,怎么做商品推荐,怎么做这些这些。真正敢把它做产品化的还比较少。因为所有的大数据这些智能的东西都有一个特点,不是百分之百的准确率。不像你要做一个什么样的产品功能,按纽放哪就放哪,不会有错误。大数据的特点是它只能做到一定的准确率,你敢不敢产品化,取决于你对这个能力的准确度提高到什么程度。就以我们这次微圈举例,或者以微热点举例,如果你把一个用户智能分组只能准确到50%、60%。结果是适得其反的。你把热点的聚类聚在一起,并且和你主页上的信息匹配的时候,你的准确率敢不敢做到80%、90%以上?这就是为什么我开始跟大家讲大数据。其实就是第一次我们也是大规模的把大数据这种技术的能力和腾讯对数据独有的数据规模的优势应用到产品中去。

时间: 2024-08-04 05:34:46

大数据三理解的相关文章

IDC:欧洲企业对大数据缺乏理解

虽然大数据日益升温,但还是有很多企业并不真正了解.很多企业甚至认为,大数据就是http://www.aliyun.com/zixun/aggregation/13584.html">海量数据存储,并不包括数据分析本身.为此IDC近日就此表示,这些不懂大数据的企业将丧失发展机遇. 近期在伦敦召开的2013数据中心世界大会上,IDC市场调研机构EMEA系统和架构研究主任Donna Taylor表示,很多欧洲企业对大数据缺乏理解.令人惊讶的是,有44%的受访者计划通过存储扩容来应对非结构化数据的

大数据三驾马车,第一个上市的Hortonworks要翻车了?

脱胎雅虎,成立三年就上市 Hortonworks这个名字源自儿童书中一只叫Horton的大象.众所周知,Hadoop的名字取自一只毛绒玩具象.类似的取名方式说明Hortonworks围绕Hadoop展开业务. 2011年,雅虎剥离Hadoop业务,由Eric Bladeschweiler,雅虎主导Hadoop开发的副总裁,带领二十几个核心成员成立Hortonworks. 成立伊始,Hortonworks即获雅虎和Benchmark 2300万美金投资,可谓含着金钥匙出生.此后Hortonwork

大数据三个重要的技术问题

  当今,大数据的到来,已经成为现实生活中无法逃避的挑战.每当我们要做出决策的时候,大数据就无处不在.大数据术语广泛地出现也使得人们渐渐明白了它的重要性.大数据渐渐向人们展现了它为学术.工业和政府带来的巨大机遇.与此同时,大数据也向参与的各方提出了巨大的挑战,首先是三个重要的技术问题: 一.如何利用信息技术等手段处理非结构化和半结构化数据 大数据中,结构化数据只占 15% 左右,其余的 85% 都是非结构化的数据,它们大量存在于社交网络.互联网和电子商务等领域.另一方面,也许有 90% 的数据来

为何?大数据三次进入政府工作报告!

.在新经济第一次进入今年<政府工作报告>的同时,大数据已经是第三次出现在了总理的<政府工作报告>,这也足以看到大数据对于我国未来新经济发展的重要作用.而在过去的2015年,无论是聚焦大数据发展的<促进大数据的行动纲要>出台,还是十三五规划中都深刻体现了政府对大数据产业和应用发展的重视.那么,到底为何大数据会如此受到政府的关注呢. 阿里研究院旗下的阿里数据经济研究中心(ADEC)认为,在新经济发展的过程中,随着互联网的普及和物联网的快速发展,云计算成为公用基础设施有越来越

大数据三梯队:数据中心、集中处理、智能软件

A股刮起一股"科技风".上周五,可视化数据分析软件供应商Tableau及大数据营销公司Marketo登陆美国股市受到热捧,当日收盘Marketo的股价飙升77.69%,Tableau的股价也暴涨63.71%.这虽然发生在大洋彼岸,但市场对"大数据"的炒作热情迅速蔓延至A股,近两个交易日"大数据"概念快速崛起,拓尔思.天玑科技等概念股股价大涨激活科技股行情. 就目前对"大数据"细分行业分类来看,主要涉及7大门类里面的10个领域,

洞悉大数据三个发展领域“政府、行业及部委”

随着大数据神秘面纱揭开,人们意识到大数据价值实为大数据科学挖掘之后的应用.应用,能推动大数据技术的创新和产业的发展,是大数据在经济发展.社会进步中显现价值的关键环节. 大数据应用已延伸至各个领域,总的可以借助一个三维的XYZ发展战略来概括,即政府.行业及部委. 地方政府显灵活 大数据应用破难题 X轴-政府 2016年有望成为政府大数据爆发式增长元年 2016年各政府将发展大数据作为工作重点,促成了大数据建设项目的高速增长.较2015全年,2016上半年政府大数据项目增长率达到60%以上,2016

如何宏观理解大数据的流通版图

数据大规模流通与交易将会盛行,很大程度上已成为了业界对大数据未来应用模式的一个共识. 连在<中共中央关于制定国民经济和社会发展第十三个五年规划的建议>和国务院印发<促进大数据发展行动纲要>中,都作出了关于推进数据资源开放共享的战略规划,要求各级政府引导培育大数据交易市场,开展面向应用的数据交易试点,探索开展大数据衍生产品交易,鼓励产业链各环节的市场主体进行数据交换和交易,促进数据资源流通,建立健全数据资源交易机制,规范交易行为等一系列健全市场发展机制的思路与举措. 虽然上有政策.下

‘大数据’是第三次浪潮的华彩乐章

美国社会思想家托夫勒在 <第三次浪潮>中提出,"如果说IBM的主机拉开了信息化革命的大幕,那么'大数据'才是第三次浪潮的华彩乐章."大数据以其"浅显易懂"的概念.广泛的潜在应用需求和可展望的巨大经济社会效益,正成为继云计算.物联网之后信息技术领域的又一热点,并将在社会经济各领域产生深刻影响. 麦肯锡全球研究院 (MGI)于2011年6月发布了题为<大数据:下一个创新.竞争和生产力的前沿>的研究报告,最早提出"大数据时代已经到来&qu

大数据要经得起三问:从哪来怎么用谁买单

资料图片 当我们面对一项大数据应用时,只要简单问一问3个问题--数据哪里来.数据怎么用.成果谁买单--就能揭开许多"伪装".日前由中国管理科学学会大数据管理专委会.国务院发展研究中心产业互联网课题组发布的<大数据应用蓝皮书:中国大数据应用发展报告No.1(2017)>指出,如许多应用并没有可靠的数据来源,或者数据来源不具备可持续性:还有些应用并没有技术或市场支撑,只是借助大数据风口套取政府部门或一些投资者的"傻钱"罢了.当然,如果经得起上述"大