真假大数据(一)

10月24日,中国TMT国际商会在北京华彬中心举办了一场主题为“大数据  大影响”的论坛,会上知名IT评论人谢文就当前热炒的大数据话题,做了精彩演讲,引起全场热烈反应。中国宽带产业基金董事长对此现场点评到,“这是我半年来听到最好的关于大数据的演讲”。中云网特将演讲整理,全文如下:

知名IT评论人谢文

我从大概过去半年左右时间写了十篇关于大数据的文章,杂志上也发表了,这只是出于我的嗜好,关于互联网,关于大数据的发展,没想到这次的反响远远高于以往的经历。应该说大数据这个概念刚开始出来,但是从我最近这一段常常被各种机构、各种部门、企业叫去参会,做演讲,最重要的困惑就是大家对大数据都有兴趣。一张嘴,南辕北辙,完全不在一个兴趣点上。所以我想站在互联网发展的历史,和投资的角度向各位介绍一下我想理解的真的大数据,或者半真半假,或者是大数据的环节,或者是假的大数据。

在互联网在中国开始初期,1999年到2010年我管它叫做互联网争论,1999年参加券商和投资领域的会,当时有人能一口数出中国有80个是互联网概念股,非常吓人,其结果不言自明。2003年到2005年是互联网真正见真钱的时候,靠电信公司的宽大政策,我们大家都活下来了。但是当时ISP这个概念下,鱼龙混杂,最终混乱了这个行当,也是概念上的混乱。2007年到2009年是WEB2.0,最后尘埃落定,中国竟然没有一家像Facebook的公司能够脱颖而出,我早期做的校内,现在流量排第12。其实后面还有关于真假新媒体,真假团购,现在余震未平,大概上万个团购投了前后二三十亿,现在一地鸡毛,所以我觉得今年,包括下面两三年大数据会卷入一种混战。

因为我们无论从投资者、创业者、经营者还是媒体推波助澜,大家喜欢看宏观、微观、局部,这是好事,怕的是你摸着石头过河,一路摸下去,越摸越惨。讨论大数据用的“时态”还是不一样的,易观的朋友用的是现代时、更在进行时。过去时,大数据古已有之,在物理学、生物学、医药业等领域已经搞了几十年了。这个概念本身听着就悬乎,大数据,形容词,不是严格的定义,喜欢说过去时的多数是学术界的人,知识界、学术界,他们有纯粹的讨论数据大的怎么办?

完成时的,“我们能够提供从硬件到软件再到方法的完整大数据解决方案”他说随便来,我早准备好了,你提供钱就是,我不是说这个路就错了。或者我讨论问题也是这么讨论,我从来不把创新和技术障碍作为前提放在前面,我假定技术条件是具备的,我们回想几次互联网大创新,技术条件都在那。那么多互联网公司只有你有好主意,他们一定能跟上。

进行时:我们正在加大投入,在数据获取、存储、整合、挖掘等方面发奋努力。说这种话的都是互联网公司,或者电信公司,他的意思是这点事尽在囊中。这些都是互联网公司的,但是这三种我个人都是不同意的,我使用的是将来时,大数据不仅是网络业的未来,而且是整个社会和经济发展的未来,现在应该开始讨论、研究、尝试这个方向的问题了。

我就把它作为未知,作为努力的方向,作为未来来讨论的。我不敢绝对的说我是对的其他三种是错的,但是相互之间有关系,我个人认为至少过去是完成时肯定是错的。我们TMT商会不会以考古为兴趣,不是以研究历史为兴趣,我们是研究未来的。还有一个观察点是讨论大数据的时点,这是我们在第三篇文章里面讲过的,非常巧合,1996年雅虎上市,2004年谷歌上市,2012年Facebook上市,间隔都是八年。雅虎在我看来解决的网页聚合问题,漫山遍野的网页,他想到了一个办法,门户解决方案可以分门别类,你就不用去找了,靠我们的专家队伍把它编辑成为一种分门别类的,无所不包的门户,这个时代回过头去,我把它叫做Weo1.0时代,到谷歌,他说我管你什么网页,我把它细分一个层次,直接抓主题词,把主题词按照一种算法,聚合起来,让人们高效的获取,这个比网页聚合的方式高效得多,但是从本质上是和网页是一样,从内容方面找路子。所以叫做WEB1.5。FaceBook就换了一个角度,叫使用者聚合,从获取者角度搞联系,搞关系,按照信息真实的传播渠道找出路,这是就是我称之为WEB2.0,它又代表了一个时代。再过八年,我现在基本肯定,我们将进入下一个阶段:数据聚合,我从数据入手就可以把已经在网上的东西,包括比如物质的东西,世界上的万事万物都可以数据化,我们把它弄起来,我认为下一个大创新应该是这样。另外,2008年的经济大危机,现在回想起来正好是FackBook创造了平台分离,应用平台。是不是预示着现在大家做常规性的小动作肯定不是好时机了?而想办法参与目前一次大创新才是生路,所以我觉得最近讨论大数据很热,各行各业的人都来了,甚至政府高官都很关注。

1996年雅虎上市的时候,谷歌还没成立,谷歌上市的时候FaceBook还没有成立,所以我们可以推测FaceBook今年上市了,带领大数据创新的公司还没有成立。

演讲PPT大数据的创新难点

什么不是大数据?我可以斩钉截铁的说,数据大不等于大数据,大多数人把数据大称之为大数据,过去多少K,后来多少兆,现在用T了。人家早等着呢,后面还有20多个名字呢,这种简单的数量的增长真的是量变和质变吗?量本身有差距吗?现有的设备、技术方法所能处理的多数是数据大,不是大数据。数据挖掘、精细化运营、精准广告、个性化服务、推广这些不是未来大数据服务商业模式的主要部分。你可以想像他做的精细化运营的成本,大概能够抵消精细化营销的收入,基本上是零。不会产生推倒重来,重新玩的效果。这是现在最常见的大数据定义,三V定义,多样性、体量、速度。我按照那个逻辑先给一个操作化定义,比如说多样性,什么叫做多样性,姓名、身高,这是不断描述一个人的精细化而已,“多”不是多样,所以我说第一个数据来源多样,刚才我们领导也专门讲过这个问题。大数据必然是开放式的,必然是公共的。一家公司不管多大,我们腾讯算中国最大的,你还得知道,他的数据有相当的同质性。有相当的局限性,有相当一个角度下的介入,如果跨出去会好很多,比如说腾讯和百度,现在两大公司,你们两家公司数据百分之百兑换、共享,那就有意思了。

现在美国政府搞的数据开放政策,40几个国家了,美国和英国非常有意思,都反映了只有我们在现实世界打不破的界限,在数据层面我们打破了。大的数据来源才可能多样性,我后面会仔细讲这件事情,数据种类的多样性,数据形式在变,有文字、语音、图表、图片、视频,信息和数据是有差别的,有定义的信息是数据,但是有相当我们现在不可解的东西,不能称之为数据,只是信息而已。数据对象的多样性,个人信息、个人数据,商业服务数据,社会公共数据,还有自然界的,物质世界的数据,只有考察多样性是从这个意义上理解,而不是自己一家一户的事越捣越细,这个数据才有生命性。大数据的多样性越高,潜在的价值就越大。

体量很简单,我们现在讨论大数据,起码是以TB为基本计量单位,我在美国上学的时候,打工、吃饭做数据分析,那个时候基本上一个G就束手无策了,现在TB是一个可以做的,成本也不是那么高,现有很多厂商都有解决方案了,是不是再过一段要PB,说不定。现在你看FaceBook一张嘴就说每天500T的数据,谷歌说我是三个P的数据,就是体量的概念。还有一个概念我是很看重的,数据之间的关系和复杂性,这种极其复杂的做建模的,做数据挖掘的应该有体会,有一阵子谷歌找我希望我去,当时2008年底,他们的模型是模型群了,大模型矩阵,62000个,之间可以任意联系,张三、李四建无数的模,这个概念应该放在体量的概念上,关系复杂性这个也放在体量之下。大数据体量越大,潜在的价值越大。

还有一个速度,我写的两篇都用到摩尔定律,其实摩尔定律在大数据上仍然有效,一个方向是数据种类每年翻番,数据体量每年翻番。后面基本上就是摩尔定律的变种了,单位数据获取的成本每年减半,单位数据每年存储的成本每年减半,单位数据利用的成本每年减半,如果那边也翻番,成本也翻番,那个是不可能的。大数据增长速度越高,潜在价值就越大。

大数据认识有几个误区,第一个只是从量上说,你看数据增长了,这样说你是没法划线的,没法说清楚普通数据和大数据的区别哪,一个T和一个P数据本质有什么差别?仅仅因为大?惠普说没有问题,我这出了一个P和一个T一样,解决了。

脱离产业发展和社会进步的大背景,讨论大数据无法说明其重要性。只要你干这件事,技术可以作为已知,总有人给你找到办法,隐私权啊,算法啊,一定有办法。把大数据这个事情作为技术问题来探讨,很难证明它有投资价值。我们互联网历史上第一波的明星,即使现在活着的公司,也比不上真正挖金子的。所以不能脱离产业发展,不能脱离社会进步,尤其是这次大数据有点像互联网刚开始,互联网很多年了,互联真正启动是美国戈尔带头。去年美国政府出了大数据国家战略,美国政府带头先搞,凡是用了联邦政府一分钱的,单位必须公布数据,推广到所有的发达国家,现在推广到相当一部分不发达国家,肯尼亚、菲律宾这样的国家都开始搞这一套,所以我们必须开始考虑大数据背后的社会、经济、更加广泛的利益。

(责任编辑:施柏鹏)

时间: 2024-09-27 02:03:14

真假大数据(一)的相关文章

真假大数据(二)

只能看到现有产品和服务的改进和完善前景,看不到产业创新的价值链重组的巨大空间.需要重新定义大数据,我不说我是正确版本,但是我这是一个方向.这是互联网服务发展历史上,什么叫做虚假大数据,一维数据都是我们现有技术和现有能力看到的,没什么讨论的,一个G和一个T,一个P.一个Z是一回事,只要你肯放钱都有招,但是增值的前景也极其有限,只是精细化而已.个人数据方面,历史上第一批互联网的服务,Email.博客.照片.行为用户都是围绕着你的用户搞起来的用户之间的事,好像到现在还没有哪一个有商业模式. 知名IT评

大数据真的靠谱吗?

互联网的普及,使得近几年全世界的信息量呈爆炸式增长,而物联网时代的到来,更是增加了网络的信息负载量,这些信息结织着网络的每一个结点,成为一个个数据,"大数据"随之进入人们的视线. 在左派http://www.aliyun.com/zixun/aggregation/7331.html">技术管理者的眼里,大数据就像是机器猫的四维口袋--无所不能,如今,许多大数据技术,如数学模型.预测算法和人工智能软件等已经被广泛应用.从日常生活到商业.体育.医疗,甚至到军事领域,所有与

大数据热的冷思考:无法取代传统的新闻传播科研方法

古希腊哲学家毕达哥拉斯曾经提出"数是万物的本源"的思想,认为世界万物归根结底都是由某种数量关系决定的.在历史上,人类量化世界的野心和尝试从未停止,而科技的进步则不断为这一目标提供越来越快捷的技术条件.2012年,技术词汇"大数据"进入人们的视野,不同于传统意义上"数据=数字"的是,在互联网.物联网高速发展的今天,网购经历.视频节目.微信语音都是数据.大数据技术量化一切的优势,使其在几年内成为每一个行业不可或缺的生产力,拥抱大数据时代到来的言论甚嚣

大数据独角兽Palantir之核心技术探秘

1.Palantir源起:B2B大数据和企业级Google. Palantir(中文名帕兰提尔,源于<指环王>中可穿越时空.洞悉世间一切的水晶球Palantír)被誉为硅谷最神秘的大数据独角兽企业,短短几年内跻身百亿俱乐部,成为全球最高估值排名第四的初创公司.它的主要客户只在美剧和好莱坞里出现,如美国联邦调查局(FBI).美国中央情报局(CIA).美国国家安全局(NSA).美国军队和各级反恐机构,当然还有如JPMorgan这样的华尔街金融大鳄等等.关于Palantir的传奇故事很多,CIA通过

商务部首次明确支持无人商店;重庆邮电大学大数据智能研究院今揭牌成立

大唐网络与北京发行集团共建基于 AI 的无人书店 雷锋网(公众号:雷锋网) AI 掘金志消息,2017年9月22日,大唐网络有限公司与北京发行集团有限责任公司在央企双创成就展会议现场举行战略合作协议签约仪式.双方将依托大唐网络在双创领域的丰富经验和技术优势,结合北京发行集团在出版发行领域的优质资源,共同打造双创体验中心,建设基于人工智能的无人书店,依托"中国云"完善智慧书城平台架构和服务,实现文化与科技的全面融合. 据悉,大唐网络和北京发行集团将一同改造部分现有实体书店,构建一批7x2

大数据,小数据,哪道才是你的菜?

美国著名科技历史学家梅尔文•克兰兹伯格Melvin Kranzberg曾提出过大名鼎鼎的科技六定律其中第三条定律是这样的[1]"技术是总是配"套"而来的但这个"套"有大有小Technology comes in packages, big and small". 这个定律用在当下是非常应景的.因为我们正步入一个"大数据big data"时代但对于以往的"小数据small data"我们能做到"事了

“大数据”提升打假成效令人期待

2015年11月7日,国务院办公厅印发<关于加强互联网领域侵权假冒行为治理的意见>,特别指出,要用3年左右时间,有效遏制互联网领域侵权假冒行为.3月10日,马云新年以来首次参加业务大会.他又一次提到打假:阿里人打假不仅是为了自己公司,更是为了下一代,不希望永远生活在一个真假不分的社会里.也是去年底,阿里巴巴与国家认证认可监督管理委员会信息中心签署合作框架协议,推出"云桥"数据共享机制,成为首家直接接入国家CCC认证信息数据库的电商平台.(3月14日<华西都市报>

《影响中国大数据产业进程100人》张华平:如何应用网络搜索挖掘内容价值

前言: 大数据是一个事关我国经济社会发展全局的战略性产业,大数据技术为社会经济活动提供决策依据,提高各个领域的运行效率,提升整个社会经济的集约化程度,对于我国经济发展转型具有重要的推动作用!2016年,由网加时代网.中国首席数据官联盟发起并主办,北京大学信息化与信息管理研究中心.中国新一代IT产业推进联盟协办的"影响中国大数据产业进程100人"大型人物专访活动全面启动,被采访对象均来自中国首席数据官联盟(分别为自政府.产.学.研.企各个领域),他们将从不同角度,不同层面向大家阐述当前大

什么才是真正的大数据征信?

随着国家推动社会信用体系建设的步伐不断加快,大数据征信的概念得到广泛传播,已被越来越多的公众所认知.大数据征信代表着未来征信业的发展方向,将深刻改变商业交易模式,成为支撑市场经济健康快速发展的基础性产业. 大数据征信前景广阔,在资本市场.商务合作和终端消费市场,征信产品的需求已经显现出来,金融机构.企业和消费者对通过第三方大数据征信机构在经济活动中考察合作和交易对方的信用状况抱有很大的期待. 目前国内注册成立的征信机构无一例外将发展目标锁定在了大数据征信上.大数据征信首要的工作就是信用信息数据库