HStreaming初创公司总部位于旧金山,近期它接受了的第一笔创业投资——阿特拉斯风险投资公司给予了100万美元的投资,这笔资金将用来打造一个实时的Hadoop系统。这家仅仅有三个人的公司却已经有了两年的历史。
如果向Hadoop的有关人士询问 如何用Hadoop超越目前的批量处理平台,那么最主要的一个答案无疑就是“实时”。实际上,下个月“ Structure: Data”的一个讨论主题也是这个,企业希望Hadoop能够成为一个可操作的数据库并且具有各种类型的OLAP引擎。
目前为止,HStreaming公司正在尝试为他们的Hadoop环境添加上一个实时的组件,当数据提交到系统时,在存储到磁盘前会进行数据的处理,就如开源的技术 Kafka和 Storm。当然这并不是一项简单的工作,Uhlig看来现在的开源版本只是尚在初级阶段(就像Storm,能够完美的对触及到的数据块进行分类),只是在分析能力上尚且不足。
另一个方面,HStreaming,已经建立了一个完整的系统,该系统能够利用实时的引擎来处理视频、服务器、传感器以及其他机器上生成的数据流。而且它也完全兼容Hadoop作为一个归档和批量处理系统。Uhlig也表示,它同时添加了很多现有的BI工具用于数据的分析。
更奇妙的是,对于Hadoop的用户来说,不需要进行任何的改变。HStreaming能够通过利用相同的MapReduce算法和用户已经编写好的Pig 脚本进行流处理。在实际的操作过程中,Uhlig表示,用户几天之内就可以从一个仅仅只能进行批处理的系统转移到该实时系统。
她表示,截至目前为止,公司目前的收益主要来源于政府(尤其是视频分析,HStreaming可以实时处理数以千计的摄像头图像),电信运营商以及广告。公司计划未来把目标放在公共基础设备和金融服务领域。
HStreaming看起来绝对具备这些技术实力。Uhlig是公司的CEO,而公司的CTO是Volkmar Uhlig(她老公),首席软件架构师是Jan Stoess,他们两人都拥有计算机科学博士学位。Volkmar还是L4微内核的首席架构师,他已经建立了一个高频的交易系统,曾经在IBM的TJ Watson研究中心工作了五年,期间正是研究流处理技术。