EMC Greenplum增非结构化大数据分析功能

EMC今天宣布Hadoop Data Computing Appliance(DCA)设备中增加了一项新功能,允许用户将非结构化与结构化数据分析平台结合起来。

EMC还公布了Greenplum Analytics Workbench——一个针对Apache Hadoop软件集成测试的1000节点测试台。

该测试台为Hadoop开源社区提供了测试资源以快速识别错误、稳定新版本以及优化硬件配置,努力加快Hadoop的创新。所有测试和结果都将返回至Apache Software Foundation和开源社区。EMC的测试将与Apache Hadoop项目相协调。

在Greenplum设备产品方面EMC推出了Modular Data Computing Appliance,允许用户将一个大规模并行处理关系数据库与企业级Apache Hadoop结合到一个统一的设备中,以实现结构化与非结构化数据的处理。

Greenplum在去年10月推出Data Computing Appliance,今年5月发布了一个升级版本DCA,其中包括一款Hadoop设备。

Greenplum HD (Hadoop) DCA构建于英特尔x86服务器之上,采用Greenplum(EMC在去年收购)所搭建的结构化数据库与Apache开源版本的Hadoop。该设备的旧版本是基于Sun Fire x64服务器的。

据EMC数据计算部门产品副总裁、Greenplum共同创始人Scott Yara表示,管理员可以并行地从Greenplum读写文件至HDFS(Hadoop File System),实现快速数据共享。使用Greenplum SQL和高级分析功能在HDFS上读取数据,可以进行跨平台的分析。

新的Modular DCA通过SAS Institute的In-Memory Analytics软件形式,增加了高性能计算模块,可服务于结构化数据(例如数据库)和非结构化数据。

Yara表示:“主要挑战是,它可以利用服务器内存,通过使用来自SAS Institute的业务分析软件执行并行处理。我们希望提供提供一种类似于乐高积木构建块的架构。”

通过使用In-Memory Analytics软件,结构化和非结构化数据可以存在于多个x86主机上,其目的是允许用户在一个集群配置的每个服务器节点的内存上执行计算。

Yara表示:“这款设备的强大之处在于它并行地执行所有这些复杂问题。”新的Modular DCA正在进行产品测试,预计将在今年年底供货。

(责任编辑:蒙遗善)

时间: 2024-10-30 23:42:27

EMC Greenplum增非结构化大数据分析功能的相关文章

企业如何保护非结构化大数据

目前企业已经进入全新的大数据时代.在高带宽.移动的.网络环境中工作和生活的我们,会产生 大量的数据,这些都成为大数据的来源,而这些信息很少存在于同一个地方.在几微秒中,信息就能够发布给世界 各地的很 多人.企业的高管门(包括CEO.CIO.CSO等)都必须面对因为大数据带来的风险和安全挑战,并规划好如何去应对他们.本文将讨论如何 看待非结构化数据相对于传统的结构化数据带来的安全风险和挑战以及多层面防护方法.识别非结构化数据与结构化数据安全保护的差异信息通常被归类为结构化形式的或非结构化形式的.不

非结构化大数据管理系统的设计及其应用案例

非结构化大数据管理系统的设计及其应用案例 北京拓尔思信息技术股份有限公司 李银松 非结构化大数据管理系统的设计及其应用案例

解开非结构化大数据处理与分析的密码

用友UAP的数据平台具备了大数据处理与分析的能力,它主要依靠非结构化数据处理平台UDH(UAP Distribute for Hadoop)来完成.UDH包括分布式文件系统.列存数据库,涵盖分布式批处理.实时分析查询.流处理和基于内存的分布式批处理的分布式分析计算框架类,以及分布式数据挖掘. 在大数据备受关注的今天,企业不能盲从,而是应该明白大数据为什么会如此之热,为什么去关注它.其中一个重要原因就是,大数据不同于普通数据,它增加了很多半结构化数据和非结构化数据,并且其数量级和价值不可同日而语.

美国数据科学家:重视非结构化数据分析 走出两大“经典”误区

虽然基本上国内大部分公司,言必提"大数据",但是对于大部分CIO.CTO们来说,对数据的分析仍然停留在过去的阶段:对于非结构化数据分析的成熟度还远远落后于结构化数据. 但是现在移动端所带来的爆发式增长给大数据从业者带来了非常大的挑战,这些数据有很多是非结构化数据,充斥了人们交流的空间,相应的,对非结构化数据的分析也变得越来越重要--对非结构化数据进行分析.提取出有价值的东西,成为CIO.CTO们最关注的问题. 但是目前,很多人仍有非结构化数据分析等同于舆情分析的粗暴认知. 非结构化数据

润乾蒋步星 | 非结构化数据分析技术是忽悠

大数据概念兴起的同时也带热了非结构化数据分析.传说一个企业中80%的数据都是非结构化数据,如果按占据空间来算,这个比例大体不假,毕竟音视频这类数据真地很大. 有这么大的数据量,需要进行分析是很自然的事了,而要分析当然就要有相应的技术手段了. 那为什么说非结构化数据分析技术是忽悠呢? 不存在通用的非结构化数据计算技术 非结构化数据五花八门,有声音图像.文本网页.办公文档.设备日志.-.:每类数据的都有各自的计算处理手段,比如语音识别.图像比对.文本搜索.图结构计算等等,但是并不存在一种适用于所有非

【数据蒋堂】非结构化数据分析是忽悠?

大数据概念兴起的同时也带热了非结构化数据分析.传说一个企业中80%的数据都是非结构化数据,如果按占据空间来算,这个比例大体不假,毕竟音视频这类数据真地很大.有这么大的数据量,需要进行分析是很自然的事了,而要分析当然就要有相应的技术手段了. 那为什么说非结构化数据分析技术是忽悠呢? 不存在通用的非结构化数据计算技术 非结构化数据五花八门,有声音图像.文本网页.办公文档.设备日志.....:每类数据的都有各自的计算处理手段,比如语音识别.图像比对.文本搜索.图结构计算等等,但是并不存在一种适用于所有

企业管理的挑战:非结构化数据分析

北京8月23日消息,据国外媒体报道,超市内部怎么设计才能最大限度地提高销售额?表面上,这个问题似乎与数据科学家挨不上边.消费者行为难以量化:因为不可预测并且似乎没有理由.为什么一些购物者在某些通道里呆了比其他人更多的时间?为什么每个购物者在店内行走的路线都不相同?为什么有些商品在上午畅销,但在下午根本卖不出去? 寻找这些问题的答案要靠非结构化数据分析--由于非结构化,这些数据无法整齐划一地输入到数据库或电子表格的行列中.绝大多数商业信息都是以非结构化数据形式存在.这些数据可能来自电子邮件.备忘录

IBM发布面向大数据及非结构化工作负载的DeepFlash 150全闪存存储

IBM本周二扩大了自己的全闪存存储产品线,增加了一款瞄准大数据和其他非结构化数据应用的产品. "新推出的IBM DeepFlash 150计划从本周晚些时候开始出货,针对那些要求标准全闪存存储解决方案不具备的容量的应用."IBM存储系统.文件和对象存储产品总监Alex Chen表示. 大多数全闪存存储阵列专注于更为传统的应用,例如VDI虚拟桌面.块存储和在线交易处理等. 分析师告诉我们,有80%的数据都是非结构化的,大数据对于闪存存储来说是一个不同的问题.自有了大数据,数据就迈向了PB

简述云存储在非结构化存储管理下的12大优势

非结构化数据,显而易见就是把信息存储在文件系统中,而不是数据库中的一种数据.据IDC的研究人员表示,如今现在有80%的企业数据是非结构化数据,而且每年都以60%的年增长率在增加.研究人员称,经常性使用的数据比例平均只有1%到5% .而未被使用数据,数量是如此的庞大并在不断的在增加,占据了企业内部第一层存储的大部分空间,是的存储资源浪费不少. 如今,使用云存储,只需支付云存储服务水平协议费用,越来越多的IT部门采用云存储模式.在不影响日常工作的情况下,如何更好地存储全球范围,那些尚具有潜在价值的不