大数据:泛滥信息中的预测性

信息革命:让一切事物都数据化

所有可计算的都要计算,所有可测量的都要测量,对那些不可测量的,要想办法让其变得可测量。

——伽利略

某些历史学家称,人类正在经历农业革命和工业革命后的第三次革命,即信息革命。IBM著名预测分析科学家科林·席勒形象地表示,信息革命的关键就是“让一切事物都数据化”。在信息时代,你所做的每个在线甚至线下动作都会被记录再案,无论是商业交易、访问网站、点击链接、观看电影、给朋友打电话……都会被有记录。每天,你的四周都充斥着信息传递装置。移动终端、自动机器以及海运集装箱,它们会记录位移信息、交互作用、库存盘点以及辐射水平。 个人健康系统会记录你的脉搏以及日常锻炼情况。现在,大量的桌面应用程序都更新为“云计算”,这使得你在电脑上的每一步操作都被记录下来。

数据中蕴含着人类行为的基本信息。诚然,数字编码从深度和广度上完全捕捉人类经验,但这并不是问题。企业会记录那些与其经验紧密相关的人类行为,因此尽管了解人类日常生活是一项艰巨的任务,但企业界早已率先为预测分析提供了宝贵的原始素材,那就是:从无穷复杂的日常生活中总结规律,然后确定生活中哪些细节最显著。

世界打开了一个全新的窗口。美国麻省理工学院的经济学家埃里克·布林约尔松教授将这种对人类行为的大规模记录、观察与历史上另一种具有划时代意义的观测工具的问世联系在一起,“几百年前,人类发明了显微镜,由此可以观测此前从来不能看到的细胞层面的活动”。《纽约时报》这样解释布林约尔松教授的观点。“这是观测史上的革命。数据观测技术就是现代的显微镜。”但与用显微镜来观测细小事物不同,我们通过数据观测来看清此前人类无法统观的宏大图景。

数据泛滥

现在,世界上的照片数量超过了板砖数量。

——现代艺术博物馆摄影部主任约翰·萨科夫斯基,1976年

现在,YouTube上每秒钟都会有1小时的视频内容上传,而万维网目前预计有83.2亿个网页。 每小时都有数百个网络交易。现在,世界上每小时拍摄的照片都要超过照相技术发明之后100年内的照片数量总和,每两分钟拍的照片数量要超过19世纪所拍摄的照片数量总和;每天, Facebook上都有超过2亿张照片上传。飞秒摄影技术每秒钟可拍摄数万亿张图片,以记录这个世界(有关每个例子的出处,请登录网站www.PredictiveNotes.com)。捕捉用户数据的移动设备超过70亿台。每秒钟有超过 100 个装置接入互联网,而且这个数字还在增长。 思科预测,到2020年,“万联网”(Internetof Everything)会连接500亿个装置。

总而言之,数据正在以难以想象的速度膨胀,现在每天新产生的数据量高达 2.5 个艾字节。 一个艾字节是1后面加18个0。1986年,如果把电脑里储存的所有数据双面打印出来,其面积将足以覆盖地球陆地表面这种增长是呈几何级的,现在,数据总量每三年就会翻一番。

你应该承认,现在,大数据最具权威性。在每篇新闻报道中,在每次科学演示中,在每个分析解决方案的广告词中,大数据都是关键词。这是危机,是机遇,是机遇的危机,危机的机遇!

大数据不是真实的存在。数据最激动人心的不是其数量,而是其增长速度。我们会永远敬畏数据的庞大数量,因为有一点永远不会变,那就是:今天的数据必然比昨天多。规模是相对的,而不是绝对的。如果我们今天使用“大”,那么很快,我们的形容词就会不够用了:“大数据”、“更大数据”、“再大数据” 以及“最大数据”。其实,早在 1975 年,一个名为“国际超大型数据库大会” 的组织就已成立。在海量数据面前,我们的词汇量显得如此匮乏。

那么,接下来的问题是,我们要如何处理这些数据才能获得最大的价值?

数据效应:数据天生具有预测性

小腿骨连着膝盖骨

膝盖骨连着大腿骨

大腿骨连着你的骨盆

——《小骨头之歌》歌词

数据简直铺天盖地,但这又如何?谁又能保证这堆企业机构经营的副产品能创造价值呢?这些只不过是无穷无尽的记录列表,是对过去发生的事物进行的强迫性的记忆堆积。

世上万物均有关联,只不过有些是间接关系,这在数据中也有所反映。例如:

? 你的购买行为与你的消费历史、 在线习惯、 支付方式以及社会交往人群相关。 数据能从这些因素中预测出消费者的行为。

? 你的身体健康状况与选择和环境有关, 因此数据能通过小区以及家庭规模等信息来预测你的健康状态。

? 你对工作的满意程度与你的工资水平、 表现评定以及升职情况相关, 而数据能反映这些现实。

? 经济行为与人类情感相关, 正如下文所述, 数据也将反映这种关系。

预测常常从小处入手。预测分析是从预测变量开始的,这是对个人单一值的评测。近期性就是一个常见的变量,表示某人最近一次购物、最近一次犯罪或最近一次发病到现在的时间,越接近现在,观察对象再次采取行动的概率就越高。许多模型的应用都是从近期表现最活跃的人群开始的,无论是试图建立联系、开展犯罪调查还是进行医疗诊断。

与此相似,频率—描述某人做出相同行为的次数也是常见且富有成效的指标。如果有人此前经常做某事,那么他再次做这件事的概率就会很高。实际上,预测就是根据人的过去行为来预见其未来行为。因此,预测分析模型不仅要靠那些枯燥的基本人口数据,例如住址、性别等,也要涵盖近期性、频率、购买行为、经济行为以及电话和上网等产品使用习惯之类的行为预测变量。这些行为通常是最有价值的,因为我们要预测的就是未来是否还会出现这些行为,这就是通过行为来预测行为的过程。正如哲学家萨特所言:“人的自我由其行为决定。”

预测分析系统会综合考虑数十项甚至数百项预测变量。 你要把个人的全部已知数据都输入系统, 然后等着系统运转。系统内综合考量这些因素的核心学习技术正是科学的魔力所在。

本文转自d1net(转载)

时间: 2024-09-20 05:37:08

大数据:泛滥信息中的预测性的相关文章

充分利用大数据 从信息爆炸中获取价值

文章讲的是充分利用大数据 从信息爆炸中获取价值,信息优化的目标为构建一个服务于整个企业,从数据安全及合规,到分析和敏捷性的统一基础设施.而由此带来的快速.轻松分析信息的能力能够帮助企业获得更可靠的视图,从而做出准确.有效的决策. 根据Coleman Parkes Research的研究表明,亚太和日本地区62%的私有企业认为有效的信息优化战略能帮助其获得竞争优势. 但是仅有不到一半的企业采用了合适的解决方案并从大数据中获得洞察,而目前仅有15%的企业将非结构化数据纳入了其企业洞察.流程和战略.

专访崔崇彦:大数据的真正价值在于预测,而不是说明现状

在美国沃尔玛,啤酒和尿布两个货架被放在一起,因为买啤酒的爸爸一般都会拿一包尿布回家.先于大数据概念,大数据的逻辑就已经出现在商业领域. 如今,大数据和"互联网+"已经成为人人谈及的流行用词.但2015年,人们专注于技术层面的探讨--怎样获取,如何通过技术手段获取人流信息.购买信息等.2016年,突破设备壁垒后,怎样把这些数据进行分析.解读,将数据转化为运营价值,对自我和竞争对手进行考察,成为行业需要面临和探讨的一件大事. 2016年,大数据都经历了什么?未来的大数据能够做什么?今年的商

盘点:大数据史上的“神预测”和“乌龙预测”

随着疾病预测.世界杯预测的火爆,"大数据"成了每个IT圈人士张口闭口离不开的话题,好像一切都朝着苹果6 的潮流发展--"bigger than bigger",越大的就是越好的.随着大数据的不断应用创新,大数据预测日益被人们"神话",100%准确率似乎成为了人们衡量大数据能力硬性指标,但事实并非如此.神乎其神的大数据预测有"显灵"一刻,也有"乌龙"一刻.今天小编就带领大家来盘点下大数据史上的关键时刻. 大数

AdTime:大数据 发挥信息消费引擎作用

文章讲的是AdTime:大数据 发挥信息消费引擎作用,当前,拉动我国经济增长的传统"三驾马车"(投资.出口.消费),出现出口下滑,投资谨慎的情况,而消费的巨大空间便受到了前所未有的期待.在消费领域中,信息消费的强劲表现更为抢眼.今年1月~5月,我国信息消费的规模达到1.38万亿元,同比增长了19.8%,信息消费正在成为市场新的亮点和热点. 7月12日,国务院常务会议提出要促进信息消费.信息消费之所以如此受重视,工信部电信研究院曾表示,信息消费不但"稳增长"的潜力巨大

大数据在医疗保健中的真正愿景

从可穿戴技术的影响到促进癌症研究的潜力,医疗保健领域的大数据技术引起了很多热议.然而,大数据在医疗保健中的真正愿景不在于个人数据收集或使用不同的应用程序,而在于结合医疗保健数据为医生创造新资源的潜力. 新的数据源 为了进行最近的研究,研究人员转向社交媒体上的数据,通过识别敌意或消极语言来识别压力的措施.然后他们将数据转换为颜色编码的地图,以预测任何给定位置的心脏病的可能性.当研究人员用传统研究创建的地图交叉检查他们的发现时,发现这些地图几乎相同.基于这些结果,研究人员认为使用外部数据源进行大数据

大数据成为信息再价值化的金矿

云计算作为新一代信息技术的重要发展方向,已被广泛认为是支撑信息化应用和业务模式创新的核心,其技术与产业发展,以及应用的推广普及,对于我国深入推进两化融合.完善社会管理手段.转变经济发展方式具有重要战略作用.在云计算技术的支撑下,大数据已经成为新时代重要的战略资源.随着经济社会信息化日臻成熟,云计算.移动互联网和物联网等新一代信息技术的广泛应用,数据增长速度越来越快,数据类型越来越丰富,大数据的价值日渐凸显.大数据时代,无论是政府.互联网公司.IT企业还是行业用户都面临巨大挑战及机遇.企业的决策方

大数据推动信息安全产品更智慧

文章讲的是大数据推动信息安全产品更智慧,2013年最热门的科技词汇非"大数据"莫属,其相关书籍长期霸占各大畅销书排行榜,人们对于大数据给出了前所未有的关注度.大数据所带来的新思想,正在逐步渗透进每一个行业,改变着我们每一个人作为数据创造者的思维方式.大数据问世之前,正是互联网.云计算.物联网等技术快速发展的时期,而随着智能终端.数字城市等信息体的普及和大范围建设,任何人任何时刻在任何地点都在产生数据,全球数据量出现爆炸式增长,大数据时代已经到来.大数据的出现为信息安全带来了巨大的挑战也

人工智能和大数据的开发过程中需要注意这12点

人工智能是近年来科技发展的重要方向,在大数据时代,对数据采集.挖掘.应用的技术越来越受到瞩目.在人工智能和大数据的开发过程中,有哪些特别需要注意的要点? 人工智能领域的算法大师.华盛顿大学教授Pedro Domingos对此进行了深入思考. 在我们新近翻译的<智能Web算法>(第2版)中,对Pedro Domingos教授的观点进行了高度的概括,提炼出12个注意点,为行业开发实践提供了重要参考: 注意点1:你的数据未必可靠 在实际应用中,有很多各种各样的原因会导致你的数据是不可靠的.因此,当你

Hadoop在电信大数据业务系统中的应用

文章讲的是Hadoop在电信大数据业务系统中的应用,2013年11月22-23日,作为国内唯一专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)于北京福朋喜来登集团酒店隆重举行.来自国内外各行业领域的近千名CIO.CTO.架构师.IT经理.咨询顾问.工程师.Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举. ▲IT168专题报道:http://www.it168.com/re