“大数据”的概念其实并不新鲜
大数据时代已经到来,但不是每个人都在接受它的洗礼。更准确的说,现如今我们所谓的“大数据”,其实就是硅谷的互联网大佬们若干年前所做的事,之所以现如今被人们所重新认识,觉得它是新鲜有趣的,那是因为现在推动大数据的技术,已经完全开源,并且普及到了大部分的企业和公司。
在与欧洲很多传统企业的对话中,我们可以越发清楚的察觉到,大数据除了能够让开发应用项目在非硅谷的地方迅速成熟起来之外,无甚新奇之处。之所以提及欧洲,那是因为在IT技术发展上,它落后于美国。无论是云计算或者大数据计算,欧洲都落后美国一到两年的时间。所以当我们看到欧洲的公司都在郑重其事的谈论大数据项目,那么就意味着大数据的概念确实开始深入人心。
“大数据”的概念,所涉及的范畴比我们想象的更为宽广
Gartner报道称:42%的IT企业领导已经深入到大数据项目的开发中。换句话说,它还有长足发展的空间。但我怀疑这个数字被低估了,这涉及到了如何定义"大数据"这样一个概念。比如,当我问一个IT企业的专家是否会开发一个大数据项目时,一般得到的回答都是"NO"。但当我进一步阐明我的意思,你所要从事的项目并不是那种涉及兆兆字节甚至更大规模的数据量,相反,是一种可以从分散的端口来拉取数据的软件,进而能够进行实时分析的项目产品。当换成这样一个问法的时候,往往她的答案就是“YES"! 这样的项目当然也是在"大数据"的范畴内。但是"大数据"这样的字眼,让人们往往更加关注的是”大“,而非数据,所以人们就走进了误区。
这个结论在NewVantage的调查中,变得更加清楚明朗,其中只有15%的受访者是在处理超大规模的数据。而从剩下的85%的受访者那里,我们可以看到企业最关心的目标,是要有能力不断的管理日益多样化,并且不断膨胀的数据资源,而非简单的处理超大规模数据。所以,当我们看到连Hadoop公司,这家以存储及加工超大规模数据闻名的公司,更加频繁的介入到ETL过程中,也就不足为奇了。(ETL:即构建数据仓库的重要一环,数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去)
在大数据的概念里,规模真的并不重要
Google公司和Facebook公司早已经发明出MapReduce以及NoSql这样的数据库,来应付应用软件(这类软件主要由数据来驱动)对实时数据分析处理的需要。现在这样的技术已经开源,随处都可以得到并使用,以至于现在的互联网大佬们已经将目光投向“更大规模数据”的技术开发和利用,而其他人,将在若干年后享受这些技术带来的便利。也许,读写网的布莱恩·普罗斯特对Hadoop网站价值的揭示更加能够说明问题。他说:“Hadoo也仅仅是让本该变得昂贵的数据存储变得便宜而已。”而GigaOm的德里克·哈里斯(Derrick Harris)也对NoSql这么评论道:“它并没有在管理复杂交易上,把其他数据库的角色取而代之。相反,NoSql催生出来一系列的应用软件,能够在处理半结构化数据方面反映更加迅速。”所以在我看来,定义大数据最好的的方式,应该站在你处理数据的角度,而跟所要处理的数据规模没有任何关系。
最近我遇到了一位欧洲的IT企业老板,他说现在已经把他的工作团队从”瀑布式”的开发方式转换为更为灵巧机敏的开发方式。该团队面向市场上实时的客户反馈,从3000个服务器中读取信息,每天要生成500G的信息量,同时从开发到配置仅仅需要24分钟的时间。该公司毫无疑问,是在向由数据驱动的模式转型。这意味着他们要有能力一扫旧有僵化的数据基础系统,同时在转变过程中会遭遇很多阻力和挫折,但最终我相信能够达到他们的目标。
不过最值得人们期待的是:是否更多的主流企业都将发展自身的大数据技术,来满足那些互联网巨头不曾有过的一些需求,或者革新将“回流”至硅谷呢!
时间会告诉我们一切