所谓“大数据人类面孔”(The Human Face of Big Data,HFoBD),请不要望文生义,误解为与视频或图像中的人脸识别有密切的关联——虽然,“大数据人类面孔”项目的发起者里克·斯莫兰(Rick Smolan)是一位著名的摄影家。
该项目是一个全球性的尝试,旨在向人类介绍大数据对我们所有人在生活、学习、治理、工作和玩乐方式上的革命性作用。该项目将通过简单、人性化的故事和图像,展示大数据已经对我们的世界带来的改变,并预示它将在未来影响到我们的一些方式。该项目还将大数据作为活动本身的基石:它将全球数以百万计的人聚集到一起,充当一天的“人体传感器”,提供他们在2012年一个24小时的时间段内,有关他们的思想、行为、意见和经验的信息。该项目有六个主要组成部分:人类的传感器组件(智能手机应用程序)、行动中的大数据视觉记录(印刷精装书及电子书)、“指挥控制中心”(Mission Control)体验、大数据追踪器、数据视觉化工具包、媒体和社交媒体推广……
“大数据人类面孔”智能手机应用,最初只有Andorid英文版,但已可见强烈的社交属性
以“人类的传感器组件”为例,里克·斯莫兰及其团队开发了一个“大数据人类面孔”的智能手机应用(五种语言的iOS和Android版本免费下载)来“测量我们的世界”。我在还只有Android下的英文版时安装了这个应用,回答了N多诸如“你认为死后会发生什么”、“从小养过/没养过宠物”等问题。在新加坡的“指挥控制中心”体验环节,介绍了从上百万参与调查者中分析的结果,譬如:
在“家庭”一节中,有“从小父母对我(偏严厉/宽容)”和“我比较(偏悲观/乐观)”等问题。分析发现,从小父母严厉的人,长大后性格会比较悲观。呃……这个,怎么说呢?这个项目的探索值得鼓励,但具体到分析结果,似乎只是印证了我们的常识而已,并没有体现出大数据最重要的特征——Value。
“大数据人类面孔”Android平台应用,显示9月底有10万多人参与调查,一周后随着活动的推广接近200万,现在已超过300万
作为“大数据人类面孔”的主赞助商,EMC公司高级副总裁Steve Leonard在提及该项目时虽然说到“作为人类活动的一部分, Youtube网站 24小时的视频,每60秒都在上传的视频,你认为是多少呢?”但是EMC公司旗下主打大数据分析的Greenplum事业部,在新加坡“指挥控制中心”展示的,主要是与Twitter合作的数据可视化成果。为达成这一目标,EMC在拉斯维加斯设了1000个节点的Greenplum集群,采集twitter信息,加以分析。用EMC的话说,信息量大的就像消防的水喉(firehose)。
乍看起来,分析Twitter的文本内容,要比图片或视频中的“人脸识别”要容易多了。不过,细想想,软件要识别单词如“Romney”、“Obama”容易,从人类语言的上下文中判断出情感和态度,实在太难。
就像同行的一位翻译朋友说的,“我爱奥巴马”和“我爱死奥巴马了”,其中的态度有何等区别,于软件分析来说,绝对是个难题。英文也好不到那里去,所以在Greenplum展示的Twitter例子中,也是侧重在挖掘选民发推与奥巴马或罗姆尼的关联度,谁被谈论的更多,但是无法作为支持率高低的依据。
大选结束后,《时代》杂志一篇分析奥巴马竞选团队在本届大选中所使用的全新数据分析战略的文章,为大数据的热潮再度加温。08年玩转社交,12年运用大数据,奥巴马的两次竞选完美的诠释了“与时俱进”,简直是潮爆了。有人说,这一次,玩转社交是奥巴马获取民意的前台表现;而在后台,是大数据支撑着奥巴马各种竞选策略的出台,决定他应该到哪些社交平台上去亮相。不过,从这篇文章里,我们很难看到大数据方法与社交网络上各种内容的深度挖掘,主要戏份似乎仍属于电话、电子邮件等相对“传统”的手段。
对Twitter上数据的这个统计倒是与大选后公布的相关信息比较吻合
也许有人会问,讲大数据的话题,为何抓住社交网络不放?这是因为,社交网络源源不断产生的各种文本、图片、视频信息,符合大数据的Volume和Variety(多样化)定义,足够Complexity(复杂),也需要Velocity(快速地)处理,但正如前面所分析的,人直接生成(如Twitter与Facebook文本)或含有复杂人类活动(如照片、视频)的数据,机器判断起来很有难度,受现有技术手段的限制,目前所能产生的Value(价值),还相对有限。
相比之下,各种传感器搜集、记录的简单信息(如位置信息,非视频、图像),既符合大数据公认的三V一C定义,也相对便于处理分析,已经体现出巨大的价值,这方面早有Splunk的成功和各种用户行为分析的尝试可证明。
较之以往企业关键的交易数据,这些数据的来源更为广泛(Volume)多样(Variety),相对也更为复杂(Complexity),但仍然可以放在各种数据库或数据仓库中,更多的运用新兴的技术手段快速(Velocity)处理,是传统的交易系统难以覆盖的。
换言之,大不大是次要的,“大数据”带给我们的启发,是需要注意传统企业交易数据库之外的,所有其他数据的价值——特别是很多传感器自动搜集的所谓“被动数据”。或许有些类型的数据中,无意义的垃圾信息较多,但要点是,每种类型的数据,都要考虑如何有效组织利用。
这些数据,当然也包括含义更为复杂的社交数据。也许眼下还产生不了足够的价值,但在大数据兴起、群雄逐鹿之际,各大厂商都忙着抢占地盘,在保证自家既有利益的同时,为将来的增长提前布局。今年的Oracle Open World有一页演示资料,几乎将大数据与社交数据划了等号,相对Oracle核心的数据库和数据仓库,处于数据金字塔的底端。而Steve Leonard的一段话也颇耐人寻味:
“想一想所有产生的信息。再想一想通常有100倍数量的信息只是在传输中,没有保存和保护,只是流经系统。每一个真正保存下来的信息,都是从几百倍的信息量中留存下来的。因此,我们所有人,每天都在产生巨大的数字足迹,或者数字影子。这是人作为个体,每天在干的事。”
你怎么看?反正我感觉,EMC的意思是,社交数据现在不能充分利用没关系,但一定要先保存下来,将来才有可能用得上……唔,这么说也没错,对你和EMC,都有好处。从这个角度出发,也可以部分解释,为何公认大数据的价值在于分析,但存储厂商却是热情最高的群体之一。
不管你是否接受大数据的概念,或者这个热潮能持续多久,围绕数据讲故事的“另类”战场已然开辟。厂商们从各自的出发点来讲故事,比拼的是谁能打动客户的内心,故事才算讲成功。然后?你懂的……