互联网的普及,使得近几年全世界的信息量呈爆炸式增长,而物联网时代的到来,更是增加了网络的信息负载量,这些信息结织着网络的每一个结点,成为一个个数据,“大数据”随之进入人们的视线。
在左派">技术管理者的眼里,大数据就像是机器猫的四维口袋——无所不能,如今,许多大数据技术,如数学模型、预测算法和人工智能软件等已经被广泛应用。从日常生活到商业、体育、医疗,甚至到军事领域,所有与数据相关的难题,只要从“口袋”里掏出相应的信息工具加以分析,就能够解决。
然而,正如马克?吐温、威尔?罗杰斯和查尔斯?凯特林等人颇具嘲讽意味的妙语所说:“引领我们进入困局的并不是我们不知道的事物,而是我们知道、但不那么真实的事物”。我们自以为熟知的大数据,也许并不如我们看上去那么真实透彻。
在大数据之前,互联网领域就曾经出现过引领人类陷入困局的“真假事件”:90年代的真假互联网使得各种互联网概念股横行;2003到2005年的真假ISP,概念的混杂搅浑了整个行业;以及之后出现的真假媒体、真假电子商务等等。因此也有专家指出,从2012年到3721.html">2014年必将出现大数据领域的混战。真假大数据的辨别不应该被忽略。
当前确定我们数字世界的数据算法和分析过于简单,不够智能。数学模型是一种简化的模型,基于自然科学、物理定律、流体中的粒子行为等等这些数据预测可靠性也许是可观的。但是人类是一种复杂的生物,人类行为的随机性很大,因此,对于人类行为的分析出现“非样本错误”的概率也就大大增加。
所以,大数据固然重要,但是直觉仍然不可或缺,许多包括技术局限和人为因素的存在都制约着大数据分析的可靠性。人类对于社会认知的能力目前还无法被人工智能所替代,社会关系分析、上下文情景分析等等,都是目前大数据还未能精确触及的方面。
除了技术的不完善以及人类行为的不确定性之外,大数据等资源无法实现充分共享也是影响其可靠性的重要因素。每一个人看待事情的角度和关注点不同,对于信息的采集点也不同,但是每一个人又都是不完美的,缺失难免存在。日前,北京微动利投资管理有限公司的副总裁黄嘉粤先生在接受记者采访时也提到:“每个公司都要做一套大数据,实际上成本很高的,还不如你有数据我买数据,或者说你有数据我们对接数据,这样的话,其实才是真正的云数据。企业之间实现数据资源的共享,才能更好地避免单方信息的片面性。”
可见,在大数据时代信息量爆增的情况下,“信号与噪声”并存,要想利用大数据做出更为准确的预测就必须学会辨别“信号与噪声”,做到不让“噪声”误导。同时,“信号”之间的共享,也能够更好地为数据信息“验明正身”。
当然,目前大数据给人类生活带来的诸多裨益已经有目共睹,而人类、数据集和分析算法的协同进化才能使得大数据创造出更多新的价值和财富。