真假大数据（一）

10月24日，中国TMT国际商会在北京华彬中心举办了一场主题为“大数据大影响”的论坛，会上知名IT评论人谢文就当前热炒的大数据话题，做了精彩演讲，引起全场热烈反应。中国宽带产业基金董事长对此现场点评到，“这是我半年来听到最好的关于大数据的演讲”。中云网特将演讲整理，全文如下：

知名IT评论人谢文

我从大概过去半年左右时间写了十篇关于大数据的文章，杂志上也发表了，这只是出于我的嗜好，关于互联网，关于大数据的发展，没想到这次的反响远远高于以往的经历。应该说大数据这个概念刚开始出来，但是从我最近这一段常常被各种机构、各种部门、企业叫去参会，做演讲，最重要的困惑就是大家对大数据都有兴趣。一张嘴，南辕北辙，完全不在一个兴趣点上。所以我想站在互联网发展的历史，和投资的角度向各位介绍一下我想理解的真的大数据，或者半真半假，或者是大数据的环节，或者是假的大数据。

在互联网在中国开始初期，1999年到2010年我管它叫做互联网争论，1999年参加券商和投资领域的会，当时有人能一口数出中国有80个是互联网概念股，非常吓人，其结果不言自明。2003年到2005年是互联网真正见真钱的时候，靠电信公司的宽大政策，我们大家都活下来了。但是当时ISP这个概念下，鱼龙混杂，最终混乱了这个行当，也是概念上的混乱。2007年到2009年是WEB2.0，最后尘埃落定，中国竟然没有一家像Facebook的公司能够脱颖而出，我早期做的校内，现在流量排第12。其实后面还有关于真假新媒体，真假团购，现在余震未平，大概上万个团购投了前后二三十亿，现在一地鸡毛，所以我觉得今年，包括下面两三年大数据会卷入一种混战。

因为我们无论从投资者、创业者、经营者还是媒体推波助澜，大家喜欢看宏观、微观、局部，这是好事，怕的是你摸着石头过河，一路摸下去，越摸越惨。讨论大数据用的“时态”还是不一样的，易观的朋友用的是现代时、更在进行时。过去时，大数据古已有之，在物理学、生物学、医药业等领域已经搞了几十年了。这个概念本身听着就悬乎，大数据，形容词，不是严格的定义，喜欢说过去时的多数是学术界的人，知识界、学术界，他们有纯粹的讨论数据大的怎么办？

完成时的，“我们能够提供从硬件到软件再到方法的完整大数据解决方案”他说随便来，我早准备好了，你提供钱就是，我不是说这个路就错了。或者我讨论问题也是这么讨论，我从来不把创新和技术障碍作为前提放在前面，我假定技术条件是具备的，我们回想几次互联网大创新，技术条件都在那。那么多互联网公司只有你有好主意，他们一定能跟上。

进行时：我们正在加大投入，在数据获取、存储、整合、挖掘等方面发奋努力。说这种话的都是互联网公司，或者电信公司，他的意思是这点事尽在囊中。这些都是互联网公司的，但是这三种我个人都是不同意的，我使用的是将来时，大数据不仅是网络业的未来，而且是整个社会和经济发展的未来，现在应该开始讨论、研究、尝试这个方向的问题了。

我就把它作为未知，作为努力的方向，作为未来来讨论的。我不敢绝对的说我是对的其他三种是错的，但是相互之间有关系，我个人认为至少过去是完成时肯定是错的。我们TMT商会不会以考古为兴趣，不是以研究历史为兴趣，我们是研究未来的。还有一个观察点是讨论大数据的时点，这是我们在第三篇文章里面讲过的，非常巧合，1996年雅虎上市，2004年谷歌上市，2012年Facebook上市，间隔都是八年。雅虎在我看来解决的网页聚合问题，漫山遍野的网页，他想到了一个办法，门户解决方案可以分门别类，你就不用去找了，靠我们的专家队伍把它编辑成为一种分门别类的，无所不包的门户，这个时代回过头去，我把它叫做Weo1.0时代，到谷歌，他说我管你什么网页，我把它细分一个层次，直接抓主题词，把主题词按照一种算法，聚合起来，让人们高效的获取，这个比网页聚合的方式高效得多，但是从本质上是和网页是一样，从内容方面找路子。所以叫做WEB1.5。FaceBook就换了一个角度，叫使用者聚合，从获取者角度搞联系，搞关系，按照信息真实的传播渠道找出路，这是就是我称之为WEB2.0，它又代表了一个时代。再过八年，我现在基本肯定，我们将进入下一个阶段：数据聚合，我从数据入手就可以把已经在网上的东西，包括比如物质的东西，世界上的万事万物都可以数据化，我们把它弄起来，我认为下一个大创新应该是这样。另外，2008年的经济大危机，现在回想起来正好是FackBook创造了平台分离，应用平台。是不是预示着现在大家做常规性的小动作肯定不是好时机了？而想办法参与目前一次大创新才是生路，所以我觉得最近讨论大数据很热，各行各业的人都来了，甚至政府高官都很关注。

1996年雅虎上市的时候，谷歌还没成立，谷歌上市的时候FaceBook还没有成立，所以我们可以推测FaceBook今年上市了，带领大数据创新的公司还没有成立。

演讲PPT大数据的创新难点

什么不是大数据？我可以斩钉截铁的说，数据大不等于大数据，大多数人把数据大称之为大数据，过去多少K，后来多少兆，现在用T了。人家早等着呢，后面还有20多个名字呢，这种简单的数量的增长真的是量变和质变吗？量本身有差距吗？现有的设备、技术方法所能处理的多数是数据大，不是大数据。数据挖掘、精细化运营、精准广告、个性化服务、推广这些不是未来大数据服务商业模式的主要部分。你可以想像他做的精细化运营的成本，大概能够抵消精细化营销的收入，基本上是零。不会产生推倒重来，重新玩的效果。这是现在最常见的大数据定义，三V定义，多样性、体量、速度。我按照那个逻辑先给一个操作化定义，比如说多样性，什么叫做多样性，姓名、身高，这是不断描述一个人的精细化而已，“多”不是多样，所以我说第一个数据来源多样，刚才我们领导也专门讲过这个问题。大数据必然是开放式的，必然是公共的。一家公司不管多大，我们腾讯算中国最大的，你还得知道，他的数据有相当的同质性。有相当的局限性，有相当一个角度下的介入，如果跨出去会好很多，比如说腾讯和百度，现在两大公司，你们两家公司数据百分之百兑换、共享，那就有意思了。

现在美国政府搞的数据开放政策，40几个国家了，美国和英国非常有意思，都反映了只有我们在现实世界打不破的界限，在数据层面我们打破了。大的数据来源才可能多样性，我后面会仔细讲这件事情，数据种类的多样性，数据形式在变，有文字、语音、图表、图片、视频，信息和数据是有差别的，有定义的信息是数据，但是有相当我们现在不可解的东西，不能称之为数据，只是信息而已。数据对象的多样性，个人信息、个人数据，商业服务数据，社会公共数据，还有自然界的，物质世界的数据，只有考察多样性是从这个意义上理解，而不是自己一家一户的事越捣越细，这个数据才有生命性。大数据的多样性越高，潜在的价值就越大。

体量很简单，我们现在讨论大数据，起码是以TB为基本计量单位，我在美国上学的时候，打工、吃饭做数据分析，那个时候基本上一个G就束手无策了，现在TB是一个可以做的，成本也不是那么高，现有很多厂商都有解决方案了，是不是再过一段要PB，说不定。现在你看FaceBook一张嘴就说每天500T的数据，谷歌说我是三个P的数据，就是体量的概念。还有一个概念我是很看重的，数据之间的关系和复杂性，这种极其复杂的做建模的，做数据挖掘的应该有体会，有一阵子谷歌找我希望我去，当时2008年底，他们的模型是模型群了，大模型矩阵，62000个，之间可以任意联系，张三、李四建无数的模，这个概念应该放在体量的概念上，关系复杂性这个也放在体量之下。大数据体量越大，潜在的价值越大。

还有一个速度，我写的两篇都用到摩尔定律，其实摩尔定律在大数据上仍然有效，一个方向是数据种类每年翻番，数据体量每年翻番。后面基本上就是摩尔定律的变种了，单位数据获取的成本每年减半，单位数据每年存储的成本每年减半，单位数据利用的成本每年减半，如果那边也翻番，成本也翻番，那个是不可能的。大数据增长速度越高，潜在价值就越大。

大数据认识有几个误区，第一个只是从量上说，你看数据增长了，这样说你是没法划线的，没法说清楚普通数据和大数据的区别哪，一个T和一个P数据本质有什么差别？仅仅因为大？惠普说没有问题，我这出了一个P和一个T一样，解决了。

脱离产业发展和社会进步的大背景，讨论大数据无法说明其重要性。只要你干这件事，技术可以作为已知，总有人给你找到办法，隐私权啊，算法啊，一定有办法。把大数据这个事情作为技术问题来探讨，很难证明它有投资价值。我们互联网历史上第一波的明星，即使现在活着的公司，也比不上真正挖金子的。所以不能脱离产业发展，不能脱离社会进步，尤其是这次大数据有点像互联网刚开始，互联网很多年了，互联真正启动是美国戈尔带头。去年美国政府出了大数据国家战略，美国政府带头先搞，凡是用了联邦政府一分钱的，单位必须公布数据，推广到所有的发达国家，现在推广到相当一部分不发达国家，肯尼亚、菲律宾这样的国家都开始搞这一套，所以我们必须开始考虑大数据背后的社会、经济、更加广泛的利益。

(责任编辑：施柏鹏)

时间： 2024-09-27 02:03:14

真假大数据（一）

真假大数据（一）的相关文章

真假大数据（二）

大数据真的靠谱吗？

大数据热的冷思考：无法取代传统的新闻传播科研方法

大数据独角兽Palantir之核心技术探秘

商务部首次明确支持无人商店；重庆邮电大学大数据智能研究院今揭牌成立

大数据，小数据，哪道才是你的菜？

“大数据”提升打假成效令人期待

《影响中国大数据产业进程100人》张华平：如何应用网络搜索挖掘内容价值

什么才是真正的大数据征信？