大数据初创企业WibiData将Hadoop“打包”

  大数据初创企业WibiData准备把Hadoop封装成一个特定的软件集合数据包,这也许将开辟一个新的Hadoop征程。这家公司的联合创始人同时也缔造了“大名鼎鼎”的Cloudera,而且该公司获得了谷歌董事长施密特的两次青睐。

  WibiData这家初创公司也许“名不见经传”,但是这家公司的联合创始人Christophe Bisciglia和Aaron Kimball同时也缔造了Cloudera,这家成立于2008年的公司在大数据领域绝对可以算得上“大名鼎鼎”了。在2012年,Cloudera还获得了6500万美元E轮融资,这也是 2012年大数据领域融资的No.1。

  其实WibiData在创立初期,并没有什么宏伟的战略规划,仅仅是想成为第一个提供基于Hadoop商业应用套件的软件供应商(即使不是第一,也应该是之一)。在今年5月份,WibiData宣布获得了1500万美元的B轮融资,该轮融资由Canaan Partners领投,原有的投资者NEA以及谷歌董事长埃里克·施密特也有参投,共同助力WibiData完成这一宏伟的目标。

  言归正传,现在Hadoop的市场也是“炙手可热”,很多公司也是雄心勃勃准备大干一场,但是昂贵的咨询费用,同时还要为特定目标开发不同应用的要求,阻挡了大多数创新企业的脚步。甚至导致了很多企业已经不能局限于从非结构化数据转向到了结构化数据(常常被称之为ETL)或者执行一些后端的分析工作。实际上,WibiData已经投入了18个月的时间在做这件事情。Bisciglia表示,Hadoop领域三大巨头(Cloudera、Hortonworks以及MapR基本上已经垄断了全部的市场份额。

  家庭能源管理初创公司Opower就是一个很好的用户案例。这家公司原本是Cloudera的老牌客户,但是“当Opower想使用SaaS工具超越批量分析和 ETL工作负载时,”Bisciglia表示,Opower就不得不寻求WibiData的帮助。原来Opower的服务只能专注于分析用户夜间的能源使用数据情况,现在完全可以动态地向用户进行推荐,在用户和应用之间构建一种全新的联系方式。

  

WibiData的系统架构

  WibiData已经构建了自己的核心技术架构,将后端的Hadoop环境与面向客户的预测性应用连接到一起,包括HBase数据集,数据格式化工具以及机器学习算法。WibiData还创建了一个开源的项目称之为 Kiji。

  

Kiji开源项目

  WibiData创建 开源项目Kiji是为了提供一个构建大数据应用的框架。Kiji的核心模块是KijiSchema,它提供了一个简单的Java API,通过Avro存储系列化来存储和管理HBase中类型化的数据。就像是构建在HBase上的一层Wrapper,基本上目的是让应用程序的编写者能更容易的用HBase管理结构化的数据,而不是作为一个扁平的表使用。

  kiji的基本操作包括KijiTable的创建修改,以及Entity数据的读写。其操作的流程步骤和HBase的比较相似,也有许多对应的概念对象如Configuration/Admin/Table等。

  总体来说,Kiji基本上就是对HBase应用模式的一个封装,用Avro来承载对象化的数据,方便Schema的演化。从数据的角度加强面向对象编程的概念(相对Hbase Table)。面对的是希望能使用HBase存储数据,快速上手开发应用的用户。( 信息来源于CSDN博客)

  Bisciglia表示,WibiData近期将重点关注金融和零售这两个行业内的发展。他预期未来成型的产品将包括数据格式化的预定义模式以及预制的预测模型,这两个产品主要面向广义的行业客户,而不是专门针对个人用户。WibiData也将为不同类型的用户(像数据科学家,系统工程师以及商业用户)提供不同种类的接口,他们可以通过自己特有的方式来跟数据进行交互。

  时间会告诉我们一切,如果WibiData可以真正实现其目标,可以把Hadoop专门封装成一个特定的软件集合数据包,这将会一个新的里程碑。即使是像Cloudera这样的行业巨头也看到了这些需求,但是它们满手的业务都是将Hadoop集成到现有环境中,以便尽早的进行使用和运行。Cloudera公司的CEO Mike Olson曾表示,“如果谁有雄心来解决Hadoop与应用之间的衔接问题,给我打电话,我马上就给资金,这笔钱随时放在那里!

时间: 2024-11-14 12:08:03

大数据初创企业WibiData将Hadoop“打包”的相关文章

大数据初创企业DataTorrent获800万美元融资

致力于提高数据分析速度的大数据初创企业DataTorrent刚刚获得800万美元融资. 这家初创企业声称可以将数据处理速度从实时提高到"现在时(now time)".创始人Phu Hoang说该公司的系统每秒钟可以处理千万个数据项.企业可利用DataTorrent来处理.监控.分析持续生成大规模非结构数据并采取行动. DataTorrent拥有250家运营商的开源库,可促进快速的应用开发并培育开发社区.平台基于Hadoop 2.0创建,在伸缩性.负载弹性方面均比前作有很大改善,而且不会

大数据初创企业Concurrent获千万美元融资

大数据初创企业Concurrent刚刚获得了 1000 万美元的新一轮融资. 大数据方兴未艾,Hadoop 则是大数据最流行的基础平台.围绕着 Hadoop 进行创新的初创企业有很多.如 Trifacta 做的是 Hadoop 的数据清理,Platfora 做的是基于 Hadoop 数据的商业智能, Splice Machine 瞄准实时负载处理,而 Hadoop 的分销商 Cloudera 和 Hortonworks 则致力于该数据库的进一步普及. 而 Concurrent 则是企业大数据应用

大数据初创企业面临的五大挑战

近几年,数据逐渐成为驱动业务的主要推动力. 更重要的是,大数据是可以帮助企业改善策略,提高运营效率和加速增长. 75% 的龙头企业说,他们已经或计划在未来几年在大数据基础设施方面布局.大量的新的和令人兴奋的大数据初创公司出现来满足企业客户日益增长的需求. 虽然大数据吸引力巨大,但是考虑到66% 的创业公司一般会在12个月失败,大数据初创公司们仍然面临着很多挑战. 挑战一 缺乏人才 大数据市场在不断增长,60%的领导者认为他们今年在大数据运营上会花费更多,只有5%预测预算会减少,最大的问题在于,这

帮数据科学家干脏累活,大数据初创企业Paxata获3350万美元D轮融资

  经过前几年的炒作之后,大数据已经逐渐远离了媒体的焦点.这并不是说大数据已经失去势头,相反正是由于大数据应用之广泛已经到了几乎任何应用都离不开的地步,司空见惯了的东西所以就无人提及.但是大数据的应用普及仍然存在一些问题,主要的问题之一就是许多环节仍然离不开人工处理.比如最开始的数据抽取.处理与整合就需要大量人力--21世纪最性感的职业很大一部分精力都用在这些脏累活上面可一点都不吸引人.所以不少创业公司都把焦点放在解放数据科学家的事情上面,Paxata就是其中之一,在Intel Capital

大数据初创企业Cirro获800万美元融资

 数据联邦平台提供商Cirro刚刚在A轮融资中获得800万美元. Cirro成立于2010年,是一家下一代数据联邦平台提供商.对于许多企业来说,数据应用面临的困境是新老数据体系的集成.对于许多大企业来说,其大量数据仍保留在自己的数据中心,以关系数据库为主.而新体系则是面向云.大数据.SaaS.及NoSQL.要想将旧体系的数据迁移到新体系中,往往需要有一个语义层或ETL(析取.转换.加载)过程,对于缺乏IT资源的企业来说这是个问题. Cirro的数据联邦平台包括Cirro Data Hub.Cir

大数据初创企业Paxata获800万美元融资

帮助数据科学家干脏活累活的云数据服务初创企业Paxata刚刚获得由 Accel Partners 领投的 800 万美元融资. Paxata 成立于 2012 年,其联合创始人兼 CEO 是 Prakash Nanduri.在数据服务领域,存储和提供数据来源的数据管理系统(如 Hadoop)和利用数据的分析应用之间普遍存在的一道鸿沟,即分析应用在对数据分析之前需要抽取.处理和整合多个来源的数据才能进行分析.这个数据准备的过程以往大都需要人工处理,耗时费力,Paxata 的目的就是要填补这道鸿沟.

大数据分析初创企业Alpine获1600万美元融资

11月23日消息,Alpine Data Labs是在大数据时代中弄潮的最新一家初创企业,该公司刚刚获得了1600万美元的融资,此轮融资由http://www.aliyun.com/zixun/aggregation/14274.html">Sierra Ventures.Mission Ventures等提供. Alpine成立于2010年,总部位于旧金山.很多的大数据初创企业做的是数据可视化,而Alpine主要提供的是大数据及Hadoop的预测性分析功能.而且这种预测性分析跟IBM或O

有了这7家大数据工具企业,还需要数据科学家么?

正如福特公司大数据主管John Ginder和其他一些企业的高管所描述的一样,业内缺乏简单的工具来解决大数据问题. "我们正在走向大数据这一伟大的终点."John Ginder在接受媒体采访时说,"尽管福特有专家来研发工具以及针对一些特殊应用的具体问题进行开发,但是面对未来所有数据都将被挖掘的现状,我们没有足够的人手和工具.数据专家而不是计算机科学家,要对数据进行审查并发觉之前没有被挖掘出的关系.这显然是一个很美好的未来,但可惜的是现在我们还没有这样的能力." 美国

大数据安全初创企业Dataguise获1300万美元融资

大数据安全初创企业Dataguise刚刚在 B 轮融资中获得 1300 万美元. Hadoop 框架是许多大组织用来分析服务器日志.网络流量等数据的手段,但是如此众多敏感的企业数据交给 Hadoop 处理却是许多企业担心的隐患.因为大数据处理过程中会产生包含有大量数据的数据集市和数据仓库,这些地方每天会被合作伙伴和业务分析师访问到,这里面可能也会包括那些与大数据分析无关的敏感数据. DataGuise 是一家提供大数据安全解决方案的初创企业.其 DgSecure 数据保护产品系列可检测企业包括云