大数据无疑使很热的话题,但其一度被质疑为是炒作,对此IThome评论称大数据绝非空谈,但挑战不完全是技术层面的话题,更大的挑战是在业务层面,甚至是管理面的问题。如下是全文:
大数据,大概是爆红速度仅次于云计算的科技新名词,过去一年来,云计算虽然还是很热门的话题,但更热门的是大数据,情况就像几年前厂商不约而同在谈云计算一样。
当初整个业界大谈云计算,从上到下几乎所有公司都能沾得上边,不免令人质疑是在炒作,但事实证明云计算至今不只没有成为泡沫,还有许多更进一步的成果。然而,遇到现今整个IT业界都在追逐大数据话题,在相同的情境下还是不免要质疑:这是不是也在炒作?
其中最直接的质疑是:大数据所指">的大数据分析,已经不是什么新鲜事了,大量数据的处理与分析应用早就存在,许多企业采用数据仓储就是为了解决大量数据处理与分析的难题。这种情况就如同当初云计算被扩大解释为网页电子信箱,搞得大家一头雾水,不免觉得“原来云计算早就存在,不过是旧瓶装新酒罢了”,但从云计算现在的发展状况来看,这当然是个误解。
大数据(Big Data)的误解,其实从中文翻译就已经造成了。大数据真是一个不好翻译的名词,很难从中文找到一个适切的译名,任何一种翻译方法,都只能表达部分意思,因此势必就会造成另外一部分的误解。
大数据有3种特性:Volume、Velocity、Variety,Volume指的是数据量庞大,而到底数据量要多大才算呢?这其实没有一定的界限,不过有许多企业已经面临单日数据量以数十、数百TB的速度增加,而总数据量也达到了PB(Petabyte)等级,这样的数据量已让传统的数据库难以处理;Velocity是指数据增加的速度越来越快,诸如移动化、社交网络的风行,使得数据增加的速度比传统的企业应用程式来得快很多,一旦数据增生速度越快,数据处理、分析的速度也就得跟上;而Variety则是指数据的多样性,我们现在上网不是只看看资讯,同时我们不断在产出数据:上传照片、上传视频、发微博,另一方面,IT深入生活中的各个层面,各式各样的监控器、感应器也不停地产出机器资讯,数据的型式已不像过去那么单纯了。
这3个数据特性,已经是现在式,而不是未来式。然而该如何解决日渐紧迫的大数据处理问题呢?像Facebook、Twitter这样面临数据量大爆炸的网路公司,开始用Hadoop、NoSQL等新兴技术来解决问题。
Hadoop是分散式处理技术,它立基于分布式架构,因此可以使用大量便宜的服务器,打造巨大的处理能力,并且可由水平扩充方式来加大处理能力,以应付更大的数据处理需求。
有了Hadoop这样的开放原始码技术,让许多人不需购买大型的数据分析设备,也有办法来分析大量的数据,例如日本药厂透过分析Twitter使用者的留言,分析感冒、流鼻水等症状的字眼,就能了解流行病的趋势,掌握市场脉动;而在过去,如果你没有可行的大数据分析工具,可能连想都不敢想要分析Twitter这么一回事。
至于传统数据分析厂商,也纷纷将数据分析平台转换为分散式处理架构,提供水平扩充能力,或是增加处理速度更快的数据库技术,来应付大数据的3种特性。这样的发展也有助于企业因应未来的数据处理挑战,对于已经采用数据仓储的用户,例如银行业,就能顺利移转。毕竟,Hadoop仍是一个很新的技术,其中的技术门槛亦较高。
所以,大数据不会是一个空谈的话题,在技术上已经有诸多变革在发生了。不过,大数据的挑战不完全是技术层面的话题,更大的挑战是在业务层面,甚至是管理面的问题。
(责任编辑:吕光)