大数据统一的批处理和流处理标准 Apache Beam

Apache Beam 是 Apache 软件基金会越来越多的数据流项目中最新增添的成员,是 Google 在2016年2月份贡献给 Apache 基金会的孵化项目。

这个项目的名称表明了设计:结合了批处理(Batch)模式和数据流(Stream)处理模式。它基于一种统一模式,用于定义和执行数据并行处理管道(pipeline),这些管理随带一套针对特定语言的SDK用于构建管道,以及针对特定运行时环境的Runner用于执行管道。

Apache Beam 的主要目标是统一批处理和流处理的编程范式,为无限,乱序,web-scale的数据集处理提供简单灵活,功能丰富以及表达能力十分强大的SDK。Apache Beam项目重点在于数据处理的编程范式和接口定义,并不涉及具体执行引擎的实现,Apache Beam希望基于Beam开发的数据处理程序可以执行在任意的分布式计算引擎上。

本文作者:佚名

来源:51CTO

时间: 2024-09-07 07:36:56

大数据统一的批处理和流处理标准 Apache Beam的相关文章

大数据统一标准到底在哪里

当下有个词很火,叫做大智移云.如今的大数据和云计算已作为经济社会发展动力中新的创新平台.在大数据时代,如何提高数据质量,通过物品编码与标准化数据降低供应链成本,实现供应链全过程畅通,已成为全球标准化机构和编码组织共同努力的方向 由中国物品编码中心.中国ECR委员会联合举办的2014年第十二届中国ECR大会在广州召开.本届大会以"数据供应链--消费品行业转型新引擎"为主题,邀请传统消费品企业和新兴电子商务企业分享各自的发展规划,并就供应链协同.数字化.标准化等话题展开深入讨论.其中迅速发

开源大数据周刊-第30期

阿里云E-MapReduce实践 泰为在E-MapReduce上的考量与实践 阿里云EMR是基于 Hadoop 的生态环境来搭建,同时可以跟阿里云的对象存储服务OSS等云服务进行无缝数据交换,方便用户将数据在存储平台和计算平台之间进行输入输出,以满足不同业务类型的需要,所以对阿里云EMR充满期待. HIVE MapJoin在E-MapReduce上的调优与处理总结 HIVE被很广泛的使用,使用过程中也会遇到各种千奇百怪的问题.这里就遇到的MapJoin Local 内存不足的问题进行讨论,从问题

大数据应用方向思考

一. 警惕大数据过热 1.1 过热产生盲目性 国内大数据的宣传早已过热,很多区县级政府也在考虑成立大数据局,政府对大数据热几乎没有抵抗力,企业没有紧跟就对了,在大数据高潮中反省政府的大数据行为.冷静一下头脑是有益的,毕竟大数据应用是一个经济问题,一窝蜂地大数据会使人犯"大炼钢铁"一类的错误. 1.2 大数据应用效益存在问题 大数据最积极的推动者是政府,但是政府工作如何从大数据应用中获益一直没有清晰的答案,有效的大数据应用集中于互联网企业和金融领域并非政府工作,迄今一本像样的政府大数据应

工信部:大数据产业发展规划 (2016-2020年)

ZD至顶网CIO与应用频道 01月17日 北京消息: 17日,工信部印发<大数据产业发展规划(2016-2020年)>,规划提出,数据是国家基础性战略资源,是21世纪的"钻石矿".党中央.国务院高度重视大数据在经济社会发展中的作用,党的十八届五中全会提出"实施国家大数据战略",国务院印发<促进大数据发展行动纲要>,全面推进大数据发展,加快建设数据强国."十三五"时期是我国全面建成小康社会的决胜阶段,是新旧动能接续转换的关键

除Hadoop外你还需要知道的9个大数据技术

Hadoop是大数据领域最流行的技术,但并非唯一.还有很多其他技术可用于解决大数据问题.除了Apache Hadoop外,另外9个大数据技术也是必须要了解的. Apache Flink Apache Samza Google Cloud Data Flow StreamSets Tensor Flow Apache NiFi Druid LinkedIn WhereHows Microsoft Cognitive Services Apache Flink:是一个高效.分布式.基于Java实现的

AdTime:将大数据带入金融风险评估体系

本文讲的是AdTime:将大数据带入金融风险评估体系,金融是什么?用通俗的话说,就是让大量的货币资产在汇集与流通过程中,产生出新的价值.大数据是什么?如果把它看作一种产业,那么大数据盈利的关键,在于汇集大量多维度数据后,对数据的进行加工提炼,在这个过程中发现.创造出新的价值. 金融与大数据,都是与未来有关的产业.金融在发挥杠杆效应的时候,可以为人们赢得未来,但也存在着风险.大数据可以预测未来评估风险.若将大数据既是运用至金融信贷体系,便可将利益与风险控制在平衡的状态中. 大数据营销企业AdTim

大数据领域开源技术,除了 Hadoop 你还知道哪些?

众所周知,大数据正在以惊人的速度增长,几乎触及各行各业,许多组织都被迫寻找新的创造性方法来管理和控制如此庞大的数据,当然这么做的目的不只是管理和控制数据,而是要分析和挖掘其中的价值,来促进业务的发展. 想要深入发展大数据,闭门造车是不可能的,共通共融是现在趋势,因此,开源让越来越多的项目可以直接采用大数据技术.如今,从小型初创企业到行业巨头,各种规模的供应商都在使用开源来处理大数据和运行预测分析.借助开源与云计算技术,新兴公司甚至在很多方面都可以与大厂商抗衡. 开源大数据的优势不言而喻,但在众多

“大数据”要这样用才赚钱!

导读 | 大数据的生意经其实很简单,就是收入增加,花费减少:就是增加客户,提高客户体验,提高资金回报的杠杆率:大数据应用成熟之后,大数据可以预测商业未来,发现新的商业机会. 一石激起千层浪,国务院发布的2015 第50号文<促进大数据发展行动纲要>刷满了朋友圈,特别是其中提到了大力推动政府部门数据共享,稳步推动公共数据资源开放.2017年底前形成跨部门数据资源共享格局,到2018年实现统一共享平台全覆盖和数据共享及交换.2020年培育10家国际领先的大数据核心龙头企业,500家大数据应用.服务

我国大数据交易亟待突破

近年来随着大数据的广泛普及和应用,数据资源的价值逐步得到重视和认可,数据交易需求也在不断增加.2015年<促进大数据发展行动纲要>明确提出"要引导培育大数据交易市场,开展面向应用的数据交易市场试点,探索开展大数据衍生产品交易,鼓励产业链各环节的市场主体进行数据交换和交易,促进数据资源流通,建立健全数据资源交易机制和定价机制,规范交易行为等一系列健全市场发展机制的思路与举措".在国家政策的积极推动.地方政府和产业界的带动下,贵州.武汉等地开始率先探索大数据交易机制.本文梳理了