"大数据"隐藏的大智慧

【摘要】如今的大数据正在迫使研究人员寻找知识探索和数据挖掘的新技术

来自如谷歌和雅虎这些公司的顶尖科学家们在圣地亚哥汇聚一堂,参与了第17届美国计算机协会(ACM)“知识探索和数据挖掘”(KDD)大会的学术讨论。他们展示了从如今泛滥的数据中洞悉信息的最新技术,并搞清这些比以往来源更为广泛多样的信息的含义。

20年前,唯一关心所谓“大数据”的人(那些拥有海量数据并有试图处理它们的人)只是科技界人士,ACM知识探索和数据挖掘特别兴趣小组执行主席、雅虎前首席数据官奥萨马·菲亚德(Usama Fayyad)说到。即便这样,数据挖掘的结果也是令人印象深刻的。“我们能够解决一些在该领域存在30多年的重大科学难题,”菲亚德说。

然而,互联网的爆炸式增长改变了一切。不管是否喜欢它,企业发现它们正在进行在线经营并积累大量有关客户及其行为的数据。菲亚德说,由于数据挖掘的能力日渐清晰,对该领域投资经济动机也在增强。

例如,网飞(Netflix)公司曾提供100万美元,奖励那些能够挖掘其有关用户信息并构建比其已有系统更准确的建议系统的团队。像这种备受瞩目的例子对于数据挖掘应用只是蜻蜓点水而已。

“工商业企业对他们通过业务流程所获取数据的作用正在逐渐提高兴趣,”IBM分析研究中心主管、大会主席齐德·爱普特(Chid Apte)说到。他指出,尤其是在医疗、社交媒体以及任何在网上发生事。

如今,互联网巨人们正在从它们收集的用户信息以及从中挖掘的信息中赚钱。零售商能够获得店主行为的复杂模型以帮助他们更好地经营他们的店铺。工业研究者可以根据拥堵状况、天气以及一年中所处的某一时间预测汽车交通模型,并提供最优线路。

然而,现在的数据并非以我们所熟悉的数据库形式存在。“信息不会以清晰的表格形式呈现在你面前,”爱普特说。“它正以网络形式呈现给你。”通常是以图表的形式,他解释说——比如那些社交媒体所使用的。这些图表通常不仅记录了节点间复杂的联系而且还有其他各种新式的信息,比如视频、图像以及人们在社交网络上提交的评论。

社交网络或许已经开启了分析这类图表的趋势,爱普特说,但网络数据也有其他来源——例如,来自复杂的工程系统,如电力网络、配水系统以及交通管理系统。这些系统中的分布式传感器网络产生的连接各地的数据集与社交网络中个体间的友谊同样重要。理解这些联系是优化系统并使它们具有可持续性的关键。

人们与图表打交道已有数百年的历史了,但如今根据社交网络或传感器网络绘制的图表有着史无前例的规模,爱普特说。“这些是规模庞大的图表,”他说。“你正在谈论的是上百万的节点和数千万的连接。

要处理那种尺寸和范围的图表,并将现代分析工具应用其中,就需要更好的算法和其他创意。爱普特说,此次会议的目标之一就是让企业注意到来自学术和工业研究实验室的前沿技术,因此企业便能将它们更快地投入应用。与此同时,大会组织者希望,学术界能够意识到这些最急需解决的商业挑战。

菲亚德表示,对数据浓厚的商业兴趣已经改变了数据挖掘领域。他说,科学家主要处理以整齐、结构化形式存储的数据。但大多数企业产生的数据都是混乱无序的。

“当科学家们正很好地进行规避的同时,企业却在被迫面对它,”菲亚德说。“它驱使企业开发从未有人尝试过的技术。”

当然,菲亚德说,挑战依然存在,但是“人们能够提出许多更具预测性的模型,更重要的是对它们进行评估(判定它们的工作状态)……这把数据分析带到了一个真正超越人类大脑理解的水平。”

本文为美国Technology Review授权文章,未经书面许可,严禁转载使用。

(责任编辑:刘芬)

时间: 2024-10-23 16:34:42

"大数据"隐藏的大智慧的相关文章

携程“漏洞门":"大数据"呼唤"大安全”

互联网将人们带入了大数据时代,大数据被称为未来的信息"金矿".这些数据的价值越来越被重视,无数双眼睛正窥视着这笔无形的资产. "携程在手,说走就走."看似轻松的广告语背后,却隐藏着信用卡泄密的风险.3月22日晚,全国知名票务服务公司.在美国纳斯达克上市的携程旅行网遇上了一片"乌云".据国内漏洞报告平台乌云披露:携程旅行网支付日志存在漏洞,用户银行卡信息可被黑客任意读取. 中国互联网信息中心调查报告显示,2013年我国网购用户规模已达到3.02亿人

英国政府应成为"大数据"的领头人么?

英国政府CIO Bill Mc Cluggage说,http://www.aliyun.com/zixun/aggregation/13625.html">英国政府应通过私营行业刺激市场发展,促进大数据最佳实践的开发,而不是成为"大数据"领域的领头人. 在一场与政府进行的"解锁大数据"的讨论中,现任公共部门首席技术专家表示,大数据不能解决政府部门面临的所有问题. "政府对待大数据的态度应是处于领导位置,还是做一个快速反应的模仿者呢?大数据这

"大数据"将有望预测40天天气

天气是很难预报.无法控制的.但是现在有一家公司试图利用大数据来预测天气. EarthRisk是一家利用大数据对未来http://www.aliyun.com/zixun/aggregation/18332.html">天气情况作出预报的技术公司.EarthRisk 的旗舰产品是 TempRisk.它采用的预测模型项源自加州大学斯克利普斯海洋研究所,该模型不同于以往的数值预报模式,可基于 820 亿次计算以及 60 年的气象历史数据来识别天气模式,然后将这些模式与当前的气候条件进行比较,再运

游戏企业需借大数据"东风"突围"红海"

游戏辉煌时代已死?洞察整个游戏行业,游戏产业正处于水深火热之中,高利润时代已远去,随之而来的是激烈竞争且产品严重的同质化.再加上用户的流失与以及手游的崛起,让游戏服务商处于生存的风口浪尖之上.面对这样一个岌岌可危的市场,整个游戏业都将会面临新的洗牌,游戏辉煌时代或许就此终结!而今天以及未来能够救赎游戏产业新一轮发展.重振辉煌的必然聚焦在大数据技术.它将开创游戏产业新时代,重塑游戏产业辉煌. 游戏业困惑 对于游戏企业而言,如果要想长期让用户喜欢几款游戏并且保持持续的业务增长,仍然面临有许多的挑战与

获“大数据"挺奥巴马"推” 揭《纸牌屋》爆红真相

伴随< 纸牌屋>一起火起来的,还有一个词,叫"大数据".对于IT人群,这个大数据的概念并不陌生,它指的是借由互联网庞大信息所涉及的海量资料,如何在合理时间内达到撷取并整理总成为帮助企业经营决策更积极目的的资讯.有一种说法是,<纸牌屋>便是Netflix根据大数据发现,大卫·芬奇+凯文·史派西+英剧<纸牌屋>,这3个关键词的受众叠加后,完全可以拍摄一部叫好又叫座的产品,这不, 奥巴马都是自己在Twitter上为 电视剧卖力叫好.事实上,真的如此吗? [

“中国声谷"拟建"大数据中心”

"在大数据时代,找到有价值的数据如同大海捞针,我们将通过什么样的产品平台和方式提炼数据价值.做大企业影响力?"近日,在2013扬州百度"翔计划"启动仪式上,百度公司副总裁郑子斌与数百名扬州企业负责人分享了他对大数据时代的见解.在企业热衷大数据的同时,广陵区正酝酿在江苏信息服务产业基地建设"大数据中心".据广陵区副区长张贵联介绍,拟在基地二期专门辟出产业楼作为数据楼,设计楼层数为五层,每层标准面积近960平方米. 作为云计算产业的重要延伸,大数据市

“大数据”还不等于“大智慧”

ZDNet至顶网服务器频道 01月14日 新闻消息:技术开发商和媒体早早地为我们描绘了一个即将来临的"大数据时代"."大数据"无所不知无所不能;有了"大数据"的支持,公司运行效率突飞猛进;"大数据"还能帮你做出最明智的决策,使你的公司所向披靡.简直不要太棒!但是在这里提醒各位,正如所有的高科技宣传一样,"大数据"也不可避免地被炒作夸大.于是,你还相信未来吗? 近几年以来,"大数据"已经传

大数据时代隐藏新商机 客厅激战开启平台之争

9月25日消息,8月以来,各大家电企业陆续发布2013年上半年业绩报告,正如不少业内人士预测的那样,众多上市公司赚得"盆满钵满",收获颇丰.上半年TCL集团实现营业总收入390.6亿元,净利润10.7亿元.海信电器上半年收入136亿元,归属母公司股东的净利润8.1亿元.长虹集团上半年总收入280.28亿元,净利润3.67亿元.康佳集团上半年总收入94.21亿元,归属上市公司股东净利润4054.77万元.和主流彩电品牌增幅明显相比,三大白色家电巨头格力电器.美的电器.青岛海尔涨势虽趋于平

微软为Windows Azure推出了一套"大计算"功能

在2012超级计算的大会上,微软为Windows http://www.aliyun.com/zixun/aggregation/13357.html">Azure推出了一套的"大计算"功能用于支持大计算应用程序.大计算的例子包括建模复杂的工程问题.理解金融风险. 研究疾病. 模拟天气,或分析大型数据集. 由于云计算提供更大的灵活性和经济性,大计算如今正越来越多地转向云,Windows Azure的"大计算"就是应此而生的. Windows Azur