大数据初创企业WibiData准备把Hadoop封装成一个特定的软件集合数据包,这也许将开辟一个新的Hadoop征程。这家公司的联合创始人同时也缔造了“大名鼎鼎”的Cloudera,而且该公司获得了谷歌董事长施密特的两次青睐。
WibiData这家初创公司也许“名不见经传”,但是这家公司的联合创始人Christophe Bisciglia和Aaron Kimball同时也缔造了Cloudera,这家成立于2008年的公司在大数据领域绝对可以算得上“大名鼎鼎”了。在2012年,Cloudera还获得了6500万美元E轮融资,这也是 2012年大数据领域融资的No.1。
其实WibiData在创立初期,并没有什么宏伟的战略规划,仅仅是想成为第一个提供基于Hadoop商业应用套件的软件供应商(即使不是第一,也应该是之一)。在今年5月份,WibiData宣布获得了1500万美元的B轮融资,该轮融资由Canaan Partners领投,原有的投资者NEA以及谷歌董事长埃里克·施密特也有参投,共同助力WibiData完成这一宏伟的目标。
言归正传,现在Hadoop的市场也是“炙手可热”,很多公司也是雄心勃勃准备大干一场,但是昂贵的咨询费用,同时还要为特定目标开发不同应用的要求,阻挡了大多数创新企业的脚步。甚至导致了很多企业已经不能局限于从非结构化数据转向到了结构化数据(常常被称之为ETL)或者执行一些后端的分析工作。实际上,WibiData已经投入了18个月的时间在做这件事情。Bisciglia表示,Hadoop领域三大巨头(Cloudera、Hortonworks以及MapR基本上已经垄断了全部的市场份额。
家庭能源管理初创公司Opower就是一个很好的用户案例。这家公司原本是Cloudera的老牌客户,但是“当Opower想使用SaaS工具超越批量分析和 ETL工作负载时,”Bisciglia表示,Opower就不得不寻求WibiData的帮助。原来Opower的服务只能专注于分析用户夜间的能源使用数据情况,现在完全可以动态地向用户进行推荐,在用户和应用之间构建一种全新的联系方式。
WibiData的系统架构
WibiData已经构建了自己的核心技术架构,将后端的Hadoop环境与面向客户的预测性应用连接到一起,包括HBase数据集,数据格式化工具以及机器学习算法。WibiData还创建了一个开源的项目称之为 Kiji。
Kiji开源项目
WibiData创建 开源项目Kiji是为了提供一个构建大数据应用的框架。Kiji的核心模块是KijiSchema,它提供了一个简单的Java API,通过Avro存储系列化来存储和管理HBase中类型化的数据。就像是构建在HBase上的一层Wrapper,基本上目的是让应用程序的编写者能更容易的用HBase管理结构化的数据,而不是作为一个扁平的表使用。
kiji的基本操作包括KijiTable的创建修改,以及Entity数据的读写。其操作的流程步骤和HBase的比较相似,也有许多对应的概念对象如Configuration/Admin/Table等。
总体来说,Kiji基本上就是对HBase应用模式的一个封装,用Avro来承载对象化的数据,方便Schema的演化。从数据的角度加强面向对象编程的概念(相对Hbase Table)。面对的是希望能使用HBase存储数据,快速上手开发应用的用户。( 信息来源于CSDN博客)
Bisciglia表示,WibiData近期将重点关注金融和零售这两个行业内的发展。他预期未来成型的产品将包括数据格式化的预定义模式以及预制的预测模型,这两个产品主要面向广义的行业客户,而不是专门针对个人用户。WibiData也将为不同类型的用户(像数据科学家,系统工程师以及商业用户)提供不同种类的接口,他们可以通过自己特有的方式来跟数据进行交互。
时间会告诉我们一切,如果WibiData可以真正实现其目标,可以把Hadoop专门封装成一个特定的软件集合数据包,这将会一个新的里程碑。即使是像Cloudera这样的行业巨头也看到了这些需求,但是它们满手的业务都是将Hadoop集成到现有环境中,以便尽早的进行使用和运行。Cloudera公司的CEO Mike Olson曾表示,“如果谁有雄心来解决Hadoop与应用之间的衔接问题,给我打电话,我马上就给资金,这笔钱随时放在那里!