Talend为Hadoop更新开源大数据平台,性能大幅提高

  开源大数据供应商 Talend 已经推出了自己的">数据集成平台5.5 版本。超快的速度是这个新版本的突出功能,它可以将Hadoop 的性能在原有基础上增加45%。

  公司几乎视Talend 5.5版的大数据平台为“传输所有Hadoop分布上的最高性能的最新的集成平台”。该公司称,根据22个标准 TPC-H 测试结果显示,新版本能够将Hadhoop的性能和可扩展性提高45%。

  当然,速度提升的部分功劳还要归功于Talend Data Mapper——这是一个数据映射工具,现在主要是在Hadoop集群流里支持多字节文件。

  除了性能增强,Talend 5.5 利用Apache Spark来实时提供大规模的数据分析。公司表示,增强的这一功能主要负责一项特别的、有吸引力的任务,如欺诈检测和传感器的数据处理,这些都需要在正确的时间给正确的人提供分析和建议。

  根据公司表示,Talend 5.5 所使用的开源组件现在都可以从 Talend 网站上获取,其相关的商业产品都可以在三个星期之内获得。

  原文链接:http://code.csdn.net/news/2820118

时间: 2024-09-20 06:42:25

Talend为Hadoop更新开源大数据平台,性能大幅提高的相关文章

开源大数据平台实施和使用中的难点

开源大数据技术是一种新一代技术和构架,它以成本较低.以快速的采集.处理和分析技术,从各种超大规模的数据中提取价值.大数据技术不断涌现和发展,让我们处理海量数据更加容易.更加便宜和迅速,成为分析和挖掘海量数据价值的一个利器,甚至可以改变许多行业的商业模式. 庞大的开源大数据技术体系,使得大数据平台在实施和使用的过程中遇到很多难点,Think Big团队总结了在开源大数据平台设施的整个过程及花费的时间,如下图所示: 大数据平台的优化和运维 大数据平台的优化和运维应该是开源大数据平台实施的难点.也是构

开源大数据平台实施的难点

开源大数据技术是一种新一代技术和构架,它以成本较低.以快速的采集.处理和分析技术,从各种超大规模的数据中提取价值.大数据技术不断涌现和发展,让我们处理海量数据更加容易.更加便宜和迅速,成为分析和挖掘海量数据价值的一个利器,甚至可以改变许多行业的商业模式. 庞大的开源大数据技术体系,使得大数据平台在实施和使用的过程中遇到很多难点,Think Big团队总结了在开源大数据平台设施的整个过程及花费的时间,如下图所示: 1大数据平台的优化和运维 大数据平台的优化和运维应该是开源大数据平台实施的难点.也是

浅谈开源大数据平台的演变

浅谈开源大数据平台的演变 2015-04-16 腾讯大数据一说到开源大数据处理平台,就不得不说此领域的开山鼻祖Hadoop,它是GFS和MapReduce的开源实现.虽然在此之前有很多类似的分布式存储和计算平台,但真正能实现工业级应用.降低使用门槛.带动业界大规模部署的就是Hadoop.得益于MapReduce框架的易用性和容错性,以及同时包含存储系统和计算系统,使得Hadoop成为大数据处理平台的基石之一.Hadoop能够满足大部分的离线存储和离线计算需求,且性能表现不俗:小部分离线存储和计算

国内首个大数据平台性能标准制定完成

今天越来越多的企业认识到,大数据的掌控和分析能力将成为竞争力的核心,企业对大数据的投资也在不断扩大.Gartner调查显示,73%的企业计划在未来两年内投资大数据.以开源Hadoop.Spark等为基础的大数据基础平台解决方案和云服务如雨后春笋不断涌现,形成了近200亿美元的市场规模.然而对于很多企业用户来说,如何评价一个大数据平台的综合能力,常常是选型.平台建设和系统优化时面临的一大挑战.目前来看,国内外还缺乏一套能体现大数据特点,又简便易行,且被工业界广泛认可的大数据平台性能测试标准与工具.

DockOne微信分享(九十九):海航生态科技舆情大数据平台容器化改造

本文讲的是DockOne微信分享(九十九):海航生态科技舆情大数据平台容器化改造[编者的话]海航舆情监控系统能够为海航集团内部提供监控网络舆情信息,对负面信息.重大舆情及时预警,研判具体舆情或者某一舆情专题事件的发展变化趋势,生成图标报告和各种统计数据,提高舆情工作效率和辅助领导决策.然而,随着项目的持续运行,许多问题逐渐暴露出来,为了解决这些难题,对整个项目重新规划设计,迁移到Hadoop.Spark大数据平台,引进持续化Docker容器部署和发布,开发和运营效率得到显著提升. 一. 舆情平台

海航生态科技舆情大数据平台容器化改造

文章介绍了海航生态科技舆情大数据平台的容器化改造经验,包括初期技术架构.应用容器化.架构迁移.持续发布与部署. 海航舆情监控系统能够为海航集团内部提供监控网络舆情信息,对负面信息.重大舆情及时预警,研判具体舆情或者某一舆情专题事件的发展变化趋势,生成图标报告和各种统计数据,提高舆情工作效率和辅助领导决策.然而,随着项目的持续运行,许多问题逐渐暴露出来,为了解决这些难题,对整个项目重新规划设计,迁移到Hadoop.Spark大数据平台,引进持续化Docker容器部署和发布,开发和运营效率得到显著提

后Hadoop时代,我们该如何去架构自己的大数据平台

过去数年,大数据开源生态圈完成了从无到有的转变,时下更是各种技术框架林立--从收集到处理,一直到数据可视化和储存,每个点都或多或少存在多个不同的替代方案.那么,在这个Hadoop已经不是唯一的时代,企业又该如何选择开源大数据技术,来架构一个稳定可靠的大数据平台? 2016年10月27日,特邀请了kyligence创始人兼CEO韩卿 & 阿里云技术专家曹龙与大家一起共同探讨这个问题,点击这里直接报名. Hadoop老矣? 对于大数据玩家来说,Hadoop绝不陌生,正式立项于2006年,Doug C

《Hadoop与大数据挖掘》一1.2 大数据平台

1.2 大数据平台 大数据平台有哪些呢? 一般认为大数据平台分为两个方面,硬件平台和软件平台.硬件平台一般如Open-Stack.Amazon云平台.阿里云计算等,类似这样的平台其实做的是虚拟化,即把多台机器或一台机器虚拟化成一个资源池,然后给成千上万人用,各自租用相应的资源服务等.而软件平台则是大家经常听到的,如Hadoop.MapReduce.Spark等,也可以狭义理解为Hadoop生态圈,即把多个节点资源(可以是虚拟节点资源)进行整合,作为一个集群对外提供存储和运算分析服务. Hadoo

Hadoop之父勾勒大数据平台的未来

Apache Haddo是一个批处理计算引擎,它是大数据核心的开源软件框架.Hadoop并不适用于真正实时数据可见性所需要的在线互动式数据处理,是这样的吗?Hadoop创造者兼Apache Hadoop项目创始人(同时也是Cloudera公司首席架构师)Doug Cutting表示,他相信Hadoop有一个超越批处理的未来. Cutting表示:"批处理有用武之地,例如你需要移动大量数据以及分析所有数据的时候,但我认为,人们真正想要的是批处理和在线计算的结合体.Hadoop将成为企业未来的主流数