大规模实时数据处理openPDC

大规模实时数据的处理对数据分析的要求很高,现有的数据库显然难以应付,而扩展将带来巨大开销。此外,NERC作为统筹多个区域电网的安全稳定的机构,计划各区PMU数据汇集到统一协调机构已实现整体评估,避免数据不共享造成的评估难题。在如此背景下,适合大规模、分布式数据处理的Hadoop突围而出,可实现利用最普通的计算机构建庞大的分布式式数据库。TVA在其基础上开发了superPDC,最近并通过openPDC(http://openpdc.codeplex.com/)项目将其开源,此工作将有利于推到量测数据的大规模分析处理,同时将为电网其他时序数据的处理提共通用的平台。目前该项目已经在美国多家电力公司得到肯定并开展实施。

时间: 2024-09-30 10:45:13

大规模实时数据处理openPDC的相关文章

【ATF】钱正平:大规模实时计算及其在阿里的应用与创新

2016 ATF阿里技术论坛于4月15日在清华大学举办,主旨是阐述阿里对世界创新做出的贡献.阿里巴巴集团技术委员会主席王坚,阿里巴巴集团首席技术官(CTO)张建锋(花名:行癫),阿里巴巴集团首席风险官(CRO)刘振飞(花名:振飞),蚂蚁金服首席技术官(CTO)程立(花名:鲁肃)以及来自阿里巴巴集团各部门多位技术大咖齐聚一堂,与莘莘学子分享阿里的技术梦想. 阿里云高级专家 钱正平正在分享<大规模实时计算及应用> 在下午的<云计算和大数据>分论坛中,阿里云高级专家钱正平(花名:布民)

浅析云计算环境下的大规模图数据处理技术

浅析云计算环境下的大规模图数据处理技术 李渊 文章从云计算简介入手,对基于云计算的图数据存储方式.图数据分割.图数据计算模型以及图数据查询处理进行了研究.期望通过本文的研究能够对促进大规模图数据处理技术的完善有所帮助. 浅析云计算环境下的大规模图数据处理技术

分布式实时数据处理实战:从选型、应用到优化

本文根据DBAplus社群第94期线上分享整理而成.   讲师介绍  卢誉声 Autodesk资深系统研发工程师   <分布式实时处理系统:原理.架构与实现>作者. Hurricane实时处理系统主要贡献者. 多部C++领域译作.   分享大纲:   1. 海量数据处理的挑战 2. 基础处理架构选型 3. 分布式系统结构设计 4. 性能调优和数据存储(MongoDB)   一.海量数据处理的挑战    随着互联网与计算机的普及,我们可以通过传统途径或互联网收集到大量的数据,而在日常工作中对这么

《Storm实时数据处理》一2.6 统计与持久化日志统计信息

2.6 统计与持久化日志统计信息 我们其实可以收集很多日志流的统计信息,但由于本节只是为了展示一些基本概念,因此我们只准备收集和处理单时间序列(每分钟)日志量.虽说如此,但这应该已经足以展示有关的设计和方法了,这些技巧能够帮助你在未来实现其他分析工作. 2.6.1 实战 Step01 下载storm-cassandra contrib项目并将其安装到Maven仓库中: Step02 在storm.cookbook.log包中,创建一个继承自BaseRichBolt的类VolumeCounting

LinkedIn开源实时数据处理系统Samza

近日,LinkedIn开源了一项技术--Samza,它是一个分布式流处理框架,专用于实时数据的处理,非常像Twitter的流处理系统Storm.不同的是Samza基于Hadoop,而且使用了LinkedIn自家的Kafka分布式消息系统. Storm和Samza极其相似,就像LinkedIn的Chris Riccomini在博客中阐述的那样:"[Samza]可以帮助你构建应用,处理消息队列--更新数据库.计数以及其他的聚合.转换消息等等."而这些其实都是很经典的Storm应用,只不过迁

如何利用“图计算”实现大规模实时预测分析

一.何为"图计算" 相比起"Hadoop.Spark"这种流行的大数据处理平台,说起"图计算",可能许多人还比较陌生.甚至有人会误把它当成专门进行"图像"处理的技术. 首先我们互联网上通常的定义来说明一下图计算: "图计算"是以"图论"为基础的对现实世界的一种"图"结构的抽象表达,以及在这种数据结构上的计算模式.通常,在图计算中,基本的数据结构表达就是: G = (V

《Storm实时数据处理》一导读

前 言 开源已经在许多方面从根本上改变了软件的原有面貌.在很多应用环境中,人们都会争论使用开源带来的好处和坏处,主要体现在支持.风险以及总体拥有成本等方面.开源在某些领域比其他领域流行,比如在研究机构中就比在大型金融服务提供商中应用得多.在某些新兴领域,比如Web服务供应商.内容供应商以及社交网络等,开源软件占据主导地位.其原因是多方面的,其中成本是一个非常大的因素.怎么说呢?如果方案要上升到网络规模,那么一般会应用"大数据"解决方案,以期获得更好的效果.凭借极佳的可用性,这些解决方案

Spark streaming 做实时数据处理的问题

问题描述 现在基于sparkstreaming做在线查询,按照我看完资料的认识,streamingcontext启动后,就不能再添加新的streaming计算或操作进去,这样一来,如果我想要实时做多种查询,是否意味着必须反复重启streamingContext才能实现?因为对storm不是很了解,不知道storm这方面是否有实现的方法?希望有经验的朋友能解答一下. 解决方案 解决方案二:对查询条件做逻辑判断,根据你传入的查询类型,调用不同的计算解决方案三:引用1楼dlh13061201的回复:

思科TetrationAnalytics带来最全面的大规模实时数据中心可见性与分析能力

思科倾力打造"数据中心时光机" 北京,2016年6月17日-思科于今日宣布推出Cisco Tetration Analytics平台,致力于为客户带来全面的数据中心可见性,帮助客户实时地在任意网络速率下洞悉包括数据包和数据流的一切动态.CiscoTetration Analytics能够收集来自硬件和软件传感器的网络流量数据,并使用高级机器学习技术对信息进行缜密分析.Tetration可满足关键数据中心操作的要求,包括合规性.应用取证和转移至白名单安全模式等.通过不间断的监控.分析与报