芯片巨头英特尔正在加倍努力以扞卫其宝贵的数据中心领地——具体方式为开发其自有技术以推动数据管理与分析技术——例如Hadoop——的实现。
为了确保至强芯片能够在数据中心管理员们的考量之下成为运行大型Hadoop集群的首选平台,英特尔在本周二宣布将为Intel Distribution for Apache Hadoop(其自有、以开源为主的软件衍生方案)添加多项新的功能与技术。
这一轮更新当中包含Intel Graph Builder for Apache Hadoop的第二个版本、Intel Analytics Toolkit for Apache Hadoop以及Intel Expressway Tokenization Boker。
在众多英特尔专为Hadoop打造的主要项目当中,“Rhino项目”尤其值得关注,它专门负责提供一套利用x86 AES处理器指令为Hadoop提供硬件加速型加密与解密功能的框架。该项目的出台正是为了对近来沸沸扬扬的斯诺登事件作出回应,希望借此克服据称已经被美国国安局成功破解的某知名芯片组加密功能、从而挽回FreeBSD在x86 RdRand操作中的可靠性危机。OpenSSL还专门针对这一问题作出了敦促。
不过为了打造这套Hadoop发行版本,英特尔已经“在HBase当中启用了额外的加密功能,”英特尔大数据业务部门产品管理负责人Ritu Kama在接受采访时指出。这些功能“能够对HBase表与列进行透明化加密,同时将HBase中的加密机制扩展至单元级别。”
这套方案的处理速度比利用软件在同一套硬件堆栈上运行要快二十倍,Kama告诉我们。
其它新功能还包括Intel Analytics Toolkit,旨在帮助打理数据的工作人员访问一整套算法以及机器学习模式。
“我们正在开发一整套构件或者算法,希望能让用户直接利用这套工具包创建应用程序——无论是否按照建议采取集群化形式,”Kama指出。
“大家并不需要每一次都从头开始。我们将提供一套流程,引导用户将数据放置在输入目录之下。数据的格式可以多川多样——网络日志文件、结构化或者非结构化均可……之后我们将帮助用户按照流程将数据整理成标准化格式,从而使算法能够加以使用,”她解释道。
展望未来,英特尔“可能还会提供一套编程环境或者IDE集成方案,开发人员可以借此直观地通过拖拽实现数据导入,”她表示。
除了这款工具包之外,英特尔还发布了“Graph Builder”,旨在帮助管理员们顺利接纳Hadoop所存储的数据并将结果汇总为图形形式——“零售商们可以根据由其历史销售数据与社交媒体数据整理出的信息创建图形分析结果,从而更好地理解品牌号召力与客户购买习惯之间的真实关系,”英特尔方面在一份录音声明中解释道。
英特尔之所以将大量精力投入到Hadoop相关项目中来,是因为这家芯片巨头感觉到该平台即将成为数据处理的核心软件系统之一。另外,英特尔还希望确保自己推出的芯片产品能够保持与AMD等竞争对手的领先优势。出于这种考量,英特尔在自己的Hadoop项目中采用了大量开源技术,除了一套整体化“Intel Hadoop Manager”层。
“我们并不打算真正建立起一套规模庞大的排他性知识产权体系,”英特尔公司数据中心软件部门渠道、营销与业务运营总经理Jason Fedder解释称。“我们的努力重点在于创建起经过调试优化的构件方案,从而加速我们的核心至强产品线在数据中心内的实际表现。”
这套分析工具包将于2014年第一季度正式推出,基价格也将由英特尔届时公布。Graph Builder工具包则将于明年一月以开源可下载方式公布。
至于英特尔的分销商(其中包括管理方),每个节点的价格大约在1500美元到3300美元之间,“具体数额取决于节点的总体数量以及实际支持方案(一周七天、每天二十四小时;或者每周五天、每天九小时),”英特尔公司发言人在邮件中告诉我们。