【摘要】如今的大数据正在迫使研究人员寻找知识探索和数据挖掘的新技术
来自如谷歌和雅虎这些公司的顶尖科学家们在圣地亚哥汇聚一堂,参与了第17届美国计算机协会(ACM)“知识探索和数据挖掘”(KDD)大会的学术讨论。他们展示了从如今泛滥的数据中洞悉信息的最新技术,并搞清这些比以往来源更为广泛多样的信息的含义。
20年前,唯一关心所谓“大数据”的人(那些拥有海量数据并有试图处理它们的人)只是科技界人士,ACM知识探索和数据挖掘特别兴趣小组执行主席、雅虎前首席数据官奥萨马·菲亚德(Usama Fayyad)说到。即便这样,数据挖掘的结果也是令人印象深刻的。“我们能够解决一些在该领域存在30多年的重大科学难题,”菲亚德说。
然而,互联网的爆炸式增长改变了一切。不管是否喜欢它,企业发现它们正在进行在线经营并积累大量有关客户及其行为的数据。菲亚德说,由于数据挖掘的能力日渐清晰,对该领域投资经济动机也在增强。
例如,网飞(Netflix)公司曾提供100万美元,奖励那些能够挖掘其有关用户信息并构建比其已有系统更准确的建议系统的团队。像这种备受瞩目的例子对于数据挖掘应用只是蜻蜓点水而已。
“工商业企业对他们通过业务流程所获取数据的作用正在逐渐提高兴趣,”IBM分析研究中心主管、大会主席齐德·爱普特(Chid Apte)说到。他指出,尤其是在医疗、社交媒体以及任何在网上发生事。
如今,互联网巨人们正在从它们收集的用户信息以及从中挖掘的信息中赚钱。零售商能够获得店主行为的复杂模型以帮助他们更好地经营他们的店铺。工业研究者可以根据拥堵状况、天气以及一年中所处的某一时间预测汽车交通模型,并提供最优线路。
然而,现在的数据并非以我们所熟悉的数据库形式存在。“信息不会以清晰的表格形式呈现在你面前,”爱普特说。“它正以网络形式呈现给你。”通常是以图表的形式,他解释说——比如那些社交媒体所使用的。这些图表通常不仅记录了节点间复杂的联系而且还有其他各种新式的信息,比如视频、图像以及人们在社交网络上提交的评论。
社交网络或许已经开启了分析这类图表的趋势,爱普特说,但网络数据也有其他来源——例如,来自复杂的工程系统,如电力网络、配水系统以及交通管理系统。这些系统中的分布式传感器网络产生的连接各地的数据集与社交网络中个体间的友谊同样重要。理解这些联系是优化系统并使它们具有可持续性的关键。
人们与图表打交道已有数百年的历史了,但如今根据社交网络或传感器网络绘制的图表有着史无前例的规模,爱普特说。“这些是规模庞大的图表,”他说。“你正在谈论的是上百万的节点和数千万的连接。
要处理那种尺寸和范围的图表,并将现代分析工具应用其中,就需要更好的算法和其他创意。爱普特说,此次会议的目标之一就是让企业注意到来自学术和工业研究实验室的前沿技术,因此企业便能将它们更快地投入应用。与此同时,大会组织者希望,学术界能够意识到这些最急需解决的商业挑战。
菲亚德表示,对数据浓厚的商业兴趣已经改变了数据挖掘领域。他说,科学家主要处理以整齐、结构化形式存储的数据。但大多数企业产生的数据都是混乱无序的。
“当科学家们正很好地进行规避的同时,企业却在被迫面对它,”菲亚德说。“它驱使企业开发从未有人尝试过的技术。”
当然,菲亚德说,挑战依然存在,但是“人们能够提出许多更具预测性的模型,更重要的是对它们进行评估(判定它们的工作状态)……这把数据分析带到了一个真正超越人类大脑理解的水平。”
本文为美国Technology Review授权文章,未经书面许可,严禁转载使用。
(责任编辑:刘芬)