大数据给我们的九个“教训”

  昨天和今天我参加了俄亥俄州立大学的“大数据未来研讨会”。俄亥俄州正在与IBM公司合作在当地创建一个大数据中心,逐渐成为该领域的一个重要学术力量。本次研讨会汇聚了来自全国各地的专家和一名来自英国的专家,就该领域当前的成就、趋势和话题进行一次卓有成效的探讨。很遗憾我没能参加今天下午的展示会,但大家可以在会议官网和即将出版的《信息社会的法律和政策》杂志(AJournalofLawandPolicyfortheInformationSociety)上了解更多详情。

  大数据和开放数据不是一回事,但他们有着密切的联系(正如我在主题发言稿“未来的大数据将会开放到什么程度?”上写到的)。我们正在关注的大数据一些趋势和话题与开放数据也有关系。按照这样的脉络,就出炉了这篇我在去哥伦布的路上学到的《了解大数据的九件事》。在研讨会的官网上可以看到我用黑体标注的人们的名字。

  为大数据的激烈反应做好准备。很多演讲者提到了“大数据过分渲染宣传”的话题,认为大数据被讨论得如此热烈,以至于我们现在可以进入一个反应性的循环。MikeNelson对他在公开场合看到的逐渐出现的“垃圾数据”提出了责难,甚至建议我们应该重新命名大数据,它可以有一个“大兄弟”–就像很多人一样。他建议改名为:BFFMUDD,是大(Big)、肥(Fat)、快(Fast)、乱(Messy)、非结构化(Unstructured)、分布式数据(DistributedData)的缩写。

  意识到“大数据的狂妄自大”。好几位演讲者引用了一份新报告,报告显示,“Google流感趋势”–大数据预测价值的首批大范例之一–被证明非常不准确。显然,Google可能自作聪明地以一种错误的方式调整了其算法。不管什么样的错误,这都是个教训,表明如果不着眼于更广阔的图景,而只是试图通过碾碎数据来发现真相,通常情况下无法获得预期效果。

  数据不能代替判断。数据,尤其大数据是可以帮助人类做出决策的工具,但不能起到代替的作用。RayHarishankar是这样说的:“数据加上分析是信息,信息加上语境可以提供洞察力,洞察力必定能导向正确的行动,正确的行动则带来提升价值的结果”。

  相关关系不能强过理论。一些大数据的倡导者认为大数据几乎让理论变得多余:他们说,有了足够的数据,即使没有理论说明其原因,我们也可以发现很多重要和有益的模式和趋势。确实,简单的相关关系在一定程度上就可以驱动精确的预测。但即便是具备预测分析的能力,也并不意味着你就能真正地理解你正在研习的系统是如何运行的。EytanAdar 建议我们审视大数据范围从预测性到解释性的所有相关努力,并且更多地关注如何理解我们所看到的东西,而不是仅仅关注可预测未来的模式。

  大数据正在-冒着风险–追踪一个“移动” 社会。在全球范围,移动设备都已经成为人类的首选在线连接工具。FarnamJahanian指出到2015年全球移动设备的数量将是人口数量的两倍,所有的设备都可以发送位置信息和其它数据给能够收集这些数据的公司。这将成为未来社会大数据的主要来源之一。但KateCrawford?指出了这里的隐私风险:由于人类移动行为模式的独特性,你可以仅用3-4个手机生成的数据点就能识别一个人。

  大数据能帮助–或者损害城市的民主体制。正如HarveyMiller所说,通过手机数据、远程环境感应器、激光生成的航空地图和更多工具来追踪城市活动的能力,可以给我们创造拥有更高代谢功能的超级协调城市。(遗憾的是,我不得不在MichaelBatty关于城市分析的主题演讲之前离开,不过他在个人网站上提供了演讲内容)但是,KateCrawford在这里再次提出了警告。如果我们不小心,城市数据收集就会不对称地帮助富人而伤害穷人。比如,波士顿的 StreetBumpAPP应用通过追踪智能手机的摆动状态来收集坑洼里的数据,用志愿者的数据来反映一条道路的颠簸不平。但大多数智能手机的拥有者都属于生活富裕的人群,以至于最初是在更富有的地区监测和修复坑洼–这是StreetBump目前正在致力于修正的难题。在相反的另一面,“预测监控”正在被用于将警察管制实施于预测将会有高犯罪率的地区,这将导致歧视性的执法。

  隐私仍然事关要紧。忘掉那些宣称公众,尤其是年轻人已经放弃隐私的报告吧。我们仍然关心隐私问题,只是不知道该怎么做。这里有两个考虑因素:我们想知道政府机构或数据跟踪公司收集到了哪些关于我们的数据信息,以及如果我们不喜欢,则想让他们停止收集。关于如何解决这些考虑因素还不是很清晰。会上的一些发言者建议采用简单的解决方案:让政府和公司对它们正在收集的数据更公开透明,这是一些人称之为“互相确认的公开”的方法。但是一个长期的透明度倡导者GaryBass说,这个建议的解决方案“不是真实的世界。在过去的30年里,我拼命地斗争让数据变得可获取,而政府和公司则拼命地让数据不可获取……这是一场旷日持久的斗争”。正如其他人所说,这里的风险在于我们可能增强了数据收集者和被收集者之间的力量不对称性。

  大数据应当展现数据之美。数据可视化方面的迅速进步正在创造一些美轮美奂的效果。比如,看一看这部“体验自行车人流”的视频,逐渐解析伦敦自行车交通的数据,展示俄亥俄州超级计算机中心最清晰的模式和部分已经完成的可视化作品。类似这样的数据可视化并不仅仅关乎美学,而是与理解息息相关。IBM公司的一位数据可视化专家 AngelaShen-Hsieh谈到人们需要使数据更加“适合人类消费”,以及关注从计算机屏幕到人脑的信息传递旅程中的“最后18英寸”。

  大数据将(很有可能)产生大价值。抛开所有的警告不管,大数据中有很多社会价值和经济价值可以发掘。麦肯锡几年前一份具有里程碑意义的大数据报告预测它将撬动数万亿美元的经济价值。这项研究的联合作者,微软公司的AngelaByers?今天说到,也许仍需要5-10年时间才能产生这样的价值,部分原因是我们仍然面临一个重要的技能鸿沟:即可获得的数据数量和清楚如何利用这些数据的人的数量之间存在的差距。但是经济价值正在逐步显现,并且以某种令人惊异的方式呈现。JohanBollen和他的团队成员运用Twitter上的大数据情感分析来预测股票市场:他们计算Twitter上的“镇静”情绪来预测道琼斯指数三天后的收盘点位。

时间: 2024-12-24 20:55:00

大数据给我们的九个“教训”的相关文章

指引大数据未来方向的九大真理

文章讲的是指引大数据未来方向的九大真理,笔者总会时不时沉浸在对大数据原则的思索当中,这里讨论的并不是Hadoop与关系数据库或者Mahout与Weka的对抗,而是更具根源性的智慧--将数据作为"新时代货币"的思维方式.不过也许将数据描述成"新时代的石油"更加贴近,或者,我们还需要一种新的比喻更全面地诠释数据的价值与内涵. 比喻本身既非事实也难以证明,但它们确实能够创造出指引我们找到真理的话题.比喻让复杂的概念变得更易理解,正如本文中所引用的经典语录--它们有助于解释

关于安防与大数据不能不说的九个发展趋势

当前,安防大数据的应用也越来越多,但真正将大数据的挖掘和应用落到实处,转变为商业模式的还是很少,目前很多大数据概念都是噱头.后期安防厂家会进行分化,部分传统安防厂家更加专注于某固定安防领域继续深耕,专注于产品和技术,一部分安防厂家会向大安防集成平台转变,专注于业务整合和数据分析处理. 当数据全面实现联网.共享,得到有效存储,并予以充分分析和挖掘,安防领域的大数据时代将真正深化.那时警察可以轻松地搜索某一时段某一颜色或某一品牌汽车的所有视频并快速识别违章行为;在没有人为干预的情况下,视频监控设备通

顽疾反复发作:大数据技术领域的九大痛点

尽管在Hadoop与NoSQL部署方面做足了准备,同样的问题仍然一次又一次反复出现.现在业界是时候尽快搞定这些麻烦事了. 有时候一艘巨轮的侧方出现了破洞,但业界却决定坐等船体下沉.并把希望寄托在销售救生艇身上. 也有些时候,这些问题似乎并没到要闹出人命的地步--类似我家里浴室的状况,只有往一边拧龙头才会出水.过一阵子我可能会找机会修理一下,但事实上这个问题已经存在了12年之久了. 而在面对大数据业务时,我可以列出九个长久以来一直令人头痛的问题,时至今日它们依然存在着并困扰着无数用户. 大数据痛点

解读云计算、大数据、物联网等九大IT技术发展趋势

不到一个月的时间就要到了2014年,很多人开始回顾和总结自己的2013年.在IT行业,市场研究公司IDC预测了该领域的九大技术:云计算.大数据.平板电脑的兴起.物联网等. 1. 个人和企业等将在技术上花费21000亿美元 IDC称,全球IT支出将在明年增长5%,至2.1万亿美元.在2014年很多个人和企业的购买方向将不再是单一的PC,而是更侧重于移动设备的投资.就单单智能手机和平板电脑方面,将会出现15%的增长.另外很多公司将会加强自身的数据安全以及采购新的硬件设备与移动设备搭配起来使用.他们需

在大数据创业?这九项准测或许能帮到你

仔细选择项目 要增加项目成功的可能性,你应该选择那些对于商业行为比较重要比较有影响力的项目,比如提如何高顾客忠诚度.如何进行交叉销售或者如何识别诈骗行为.有时那些听起来看起来很高大上的项目很容易吸引我们的注意力,但当你做了很多工作分析了一通发现对增加企业收入完全没有任何帮助的时候,你的项目就离失败不远了. 尽可能地多收集些数据 当为用户行为建立模型时,应当既收集重点客户的数据同时也收集那些潜在重点客户的数据.在模型中忽视或者过度重视某些客户群可能会让你忽略一些模型中可能的重要变量. 不要只用内部

重庆市与九次方大数据签署战略合作备忘录

ZDNet至顶网软件频道消息(文姜玮玮):2014年7月11日,重庆市经济和信息化委员会领导与九次方大数据公司总裁王叁寿签署了关于共同推动大数据和互联网金融产业发展战略合作备忘录.双方就重庆市与九次方进一步合作进行了沟通.重庆市经济和信息化委员会总工程师赵刚.市委副处长严志强出席了本次战略合作会议. 九次方大数据(JUSFOUN  BIGDATA)创建于2010年,总部位于北京金融街,拥有大数据挖掘技术.企业数据采集.数据建模.可视化技术方面的大数据产业链人才结构:企业数据采集网络覆盖中国最主要

大数据应用方向思考

一. 警惕大数据过热 1.1 过热产生盲目性 国内大数据的宣传早已过热,很多区县级政府也在考虑成立大数据局,政府对大数据热几乎没有抵抗力,企业没有紧跟就对了,在大数据高潮中反省政府的大数据行为.冷静一下头脑是有益的,毕竟大数据应用是一个经济问题,一窝蜂地大数据会使人犯"大炼钢铁"一类的错误. 1.2 大数据应用效益存在问题 大数据最积极的推动者是政府,但是政府工作如何从大数据应用中获益一直没有清晰的答案,有效的大数据应用集中于互联网企业和金融领域并非政府工作,迄今一本像样的政府大数据应

粤数大数据公司领跑广东省大数据产业发展

为加快推进广东省云浮市大数据产业的发展,日前,广东粤数大数据有限公司与广东省云浮市人民政府签订框架合作协议,正式参与云浮市大数据产业发展,力争将云浮市打造成辐射"珠三角"及"粤西南"地区大数据产业基地. 这是贯彻落实国家和广东省大数据战略的具体行动,也是云浮市搭上"大数据"发展快车的关键性里程碑. 政府支持 建设"中国云谷" 近年来,大数据作为"互联网+"以及大众创业.万众创新的重要组成部分和有效手段,逐渐

《中国产业链大数据白皮书》发布

<九次方·金融大数据白皮书>全文.pdf <中国产业链大数据白皮书>全文.pdf 日前,<中国产业链大数据白皮书>在北京发布.这份报告详细阐述了在产业互联网.大数据到来的时代,诸如物流.能源.汽车.教育.医疗等各个产业链如何应势而动. 在整个大IT产业,产业链大数据还是一个新兴概念.但是,整个IT业对产业互联网的认识已经非常透彻.未来20年,将是产业互联网的时代.IBM.Oracle.联想.九次方大数据等多家公司,都一致判断,产业互联网将来到,与用户互联网不同,产业互联