Teradata Aster在Hadoop和R上的进展

  刚刚宣布放宽计算及内存限制,Aster提供R语言分析能力之后,Teradata迅速出手,宣布由Teradata实验室收购了Revelytix和Hadapt。前者主要致力于Hadoop上的数据管理,而Hadapt则是一家专注SQL-on-Hadoop的公司。显然,Teradata构建统一数据架构方面正在加速奔跑。

构建统一数据架构

   事实上,结构化数据和非结构化数据通过传统的SQL分析和新的分析算法(时间序列、路径、图和文字)正在产生新的价值。为了最高效率、最优存储、分析和 应用的成本,大数据的技术链条正在分层。在Teradata天睿公司大中华区大数据事业部总监孔宇华的分析中,统一数据架构可以分为三层:Teradata整合数据仓库、以Aster为主的探索分析平台,以及以Hadoop为主的数据平台 。

Teradata天睿公司大中华区大数据事业部总监 孔宇华

  Hadoop自然是为了实现快速数据加载和获取,数据过滤和预处理以及在线归档;Aster则是数据发现、快速假设校验和试错、模式监测,实现路径、图、时间序列分析;Teradata数据仓库是实现战略智能、预测分析和操作型智能。

  这也是业内比较认可的技术分层模式。通过三个平台的整合,来满足更多行业深入的数据分析需求。

   以医疗行业为例,要实现对病人住院情况进行分析,需要在数据平台上复查住院治疗数据,并通过运用Aster中的时间序列路径函数,聚集函数以及 Sigma值函数,识别一个病人从住院到出院的所有治疗程序以及为其提供医疗服务的医生,进而在Teradata中生成时间、地域、交叉、医疗效果等可视 化分析图谱。而通过对美国一家医院肺炎患者的相关分析并指导业务改进,“降低了10%的住院时间,节省了5000万美元”。孔宇华表示。

  同样可分享的案例还有运营商、银行、零售、电商、高科技制造等。而回到技术上,整合数据仓库,无论是在共享相关性、一致性和整合数据,还是快速部署新应用,形成业务视图等方面都较为成熟。与之相对应的是,最有技术挑战的是数据平台和探索平台。

在Hadoop基础上发挥Aster优势

  这两者在技术发展上有重叠,也各有侧重。对Teradata而言,就是如何有效利用Hadoop,并在其上通过Aster实现挖掘和分析。

  在孔宇华看来,Aster和Hadoop同样是MPP架构,但在存储,运算引擎以及界面方面都有较多的差异,这决定两者所擅长任务的差别(如图)。

Aster和Hadoop的区别(点击看大图)

  在Hadoop基础上进行创新并不鲜见。但能够在企业级市场拥有如此多引擎的并不多。Aster的优势就在于此。以Aster SQL-Graph引擎为例,相比Hadoop Giraph或者Google相关产品,Aster SQL-Graph的优势在于:

图并行架构

通用目标的BSP 框架

无内存绑定,高可扩展

易于开发使用的APIs

面向顶点编程的API

构建用户自定义图函数的SDK 和 IDE

预定义的图函数

开箱即用的函数,适合图并行执行

和现有平台集成能力

和Aster关系存储、文件存储、外部数据源的

数据一起工作

和其它分析引擎集成 (SQL, SQL-MR)

其它企业服务突破开源R语言的限制

  不止如此,Aster对R的支持已经进入企业级标准。这与趋势相符。Rexer Analytics咨询公司调查显示,70%的调查对象称他们正在使用R语言。数据显示,从2010年开始到2013年,使用R的人群是陡然剧增的。

  但R也有不得不面对的挑战。如R分散于各节点或各服务器,各节点或各服务器单独运行,尽管有利于行的独立分析处理,例如模型评分,但并不利于分析功能所需要的所有数据,例如模型搭建等。要突破开源R语言的限制,整合Aster和R,实现企业级分析需求,需要更多技术优化:

通过Aster MPP架构运行开源R语言,实现高效并行分析放宽内存及数据处理限制,保证大规模并发利用Aster Discovery Portfolio功能增强R语言分析能力通过整合超过100项 Aster Discovery Portfolio分析功能和 5000多种R工具包

  孔宇华表示:“Teradata Aster R以软件数据包形式,实现开源R语言的大规模并发,这对数据分析人员而言,更具优势。”

   从Hadoop中读取数据,在Teradata数据仓库或Teradata Aster数据库中智能地运用多种异构处理引擎的功能进行数据分析,形成可视化报告,进而带动业务洞察和创新。这个技术架构已经极为流畅,对 Teradata而言,更重要的挑战是如何尽快在更多行业落地,驱动数据分析变革。

时间: 2024-08-02 16:08:34

Teradata Aster在Hadoop和R上的进展的相关文章

天睿公司发布Teradata Loom 释放Hadoop数据价值

ZDNET至顶网CIO与应用频道 10月31日 北京消息:Teradata天睿公司宣布推出Teradata Loom 2.3.Teradata Loom 2.3 是首款在Hadoop框架内实现数据沿袭.集成元数据和数据整理功能的综合软件解决方案.依托这些突破性功能,Teradata Loom帮助数据分析师和数据科学家在Apache Hadoop框架内快速.轻松地发现.了解并跟踪数据,提升工作效率,加速实现大数据计划. Teradata Loom是一款数据管理解决方案,通过基于浏览器的界面处理Ha

如何让Hadoop结合R语言做大数据分析?

为什么要让Hadoop结合R语言? R语言和Hadoop让我们体会到了,两种技术在各自领域的强大.很多http://www.aliyun.com/zixun/aggregation/7155.html">开发人员在计算机的角度,都会提出下面2个问题.问题1: Hadoop的家族如此之强大,为什么还要结合R语言? 问题2: Mahout同样可以做数据挖掘和机器学习,和R语言的区别是什么?下面我尝试着做一个解答:问题1: Hadoop的家族如此之强大,为什么还要结合R语言? a. Hadoop

Teradata Aster大数据探索平台获评最受欢迎商业智能新产品

全球领先http://www.aliyun.com/zixun/aggregation/14294.html">的大数据分析和数据仓库解决方案厂商Teradata天睿公司宣布,Teradata Aster大数据探索平台荣获两大类别的"史迪威大奖大众选择奖":"最受欢迎商业智能软件类2013年最受欢 迎新产品奖"以及"软件/商业智能/竞争情报解决方案的最佳产品/服务奖". "史迪威大奖大众选择奖"是"美

2014年大数据将有12个趋势:Hadoop和R语言成主角

现在,"大数据"已经成为最热门词汇之一,越来越多的企业开始关注和拥抱大数据,2014年大数据将会有更多实质性的进展,其中,Hadoop和R语言将会成为主角. "大数据"已成为2013年使用频率最高的技术热词之一.相应的市场也在这一年中出现了迅速增长.和大数据相关的Hadoop及其生态系统已经从原先只有非常天才的程序员和工程师才会使用的技术变成了数据科学家们的常用工具.越来越多的企业开始拥抱大数据技术,并将大数据应用引入生产环境中. 那么,2014年的大数据将会如何发

grep-用shell脚本读取Hadoop集群上的文件

问题描述 用shell脚本读取Hadoop集群上的文件 我想用grep -Ff 命令提取hadoop上两个文件中相同的内容, 例如hadoop上的文件位置为/hadoop/file1和/hadoop/file2, 我想在本地用shell脚本编写比较hadoop上这两个文件内容的代码,求指点 解决方案 需要脚步跑到Hadoop.本地没法获取

Hadoop集群上检查磁盘使用量和清理相关日志文件脚本

#####----检查Hadoop集群上的磁盘使用量----##### #!/bin/sh #检查Hadoop集群上的磁盘使用量 function diskState(){ COUNT=1 while [ ${COUNT} -le ${NUM} ] do echo "********检查Hadoop${COUNT}上的磁盘使用量**********" #获取远程机器上的磁盘状态 ssh -t -p 22 hadoop${COUNT} "df -h" COUNT=$(

《中国人工智能学会通讯》——1.31 深度学习 在自然语言处理研究上的进展

1.31 深度学习 在自然语言处理研究上的进展 近年来,深度学习在人工智能的多个子领域都取得了显著的进展.在自然语言处理领域,虽然深度学习方法也收到越来越多的关注,在很多任务上也取得了一定效果,但是并没有其他领域那么显著.传统的主流自然语言处理方法是基于统计机器学习的方法,所使用的特征大多数是基于 onehot 向量表示的各种组合特征.这个特征表示方式会导致特征空间非常大,但也带来一个优点.就是在非常高维的特征空间中,很多任务上都是近似线性可分的.因此,在很多任务上,使用线性分类器就是可以取得比

Hadoop学习第四天之hadoop命令操作(上)

Hadoop命令操作 格式:hadoop  fs 可以在/etc/profile 中添加 alias  hf='hadoopfs' #简化每次命令的书写 -ls  <path> 表示对hdfs下一级目录的查看 -lsr <path>  表示对hdfs目录的递归查看 -mkdir <path> 创建目录 -put <src>  <des>  从linux上传文件到hdfs  (同-copyFromLocal)可以上传多个文件,最后一个为目的地址 -

hadoop fs -put 上传不上去 文件大小显示为0

问题描述 [root@localhosthadoop-0.20]#hadoopfs-put~/Desktop/hadoop-book-master/test-data/ch1/file*.txt/16/01/2918:56:46WARNhdfs.DFSClient:DataStreamerException:org.apache.hadoop.ipc.RemoteException:java.io.IOException:File/file1.txtcouldonlybereplicatedto