流数据平台的5个核心属性

文章讲的是流数据平台的5个核心属性,大数据中蕴含的信息能够帮助企业以更广的视角来洞察数据,提升企业的决策力。数据驱动型的企业也如雨后春笋般冒出,但是数据驱动型企业看似前景光明,其实面临着很多挑战。随着数据类型的多样化,数据驱动型企业必须考虑很多新的数据源,比如移动应用程序、全球网站、物联网的传感器信息等等。这些新的数据源就要求技术人员要熟悉了解流数据平台。

  流数据平台的集成、流数据的采集以及流媒体应用的分析,有五个核心属性是必不可少的。

  低延迟:流数据平台需要从流中获得数据,并匹配合适的数据源。流媒体数据平台的关键之一就是要有和特定的商业模式或场景匹配的数据采集和近实时分析的能力。当你需要等待数据落到数据仓库或基于Hadoop的数据湖时,那么流分析的实时性价值就会被降低。尤其是在一些基于位置的应用或者是预测性维护的应用程序中,一旦在数据创建或落地的过程中花费太多的时间,那么就可能会对企业业务有很大的影响,比如错失重要客户,甚至会造成极大的经济损失。

  可扩展性:流数据平台不仅仅是连接两个在企业防火墙后面的数据源,同时它还需要能够匹配连接设备的增长速度以及物联网的发展速度。这也就意味着流数据平台需要获得不同来源的大量数据,这些数据包括来自内部和外部以及第三方的数据。

  多样化:流数据平台不仅仅要支持移动设备、云端,物联网等等这些“新时代”的数据源,也要支持关系数据库、数据仓库和ERP、CRM、SCM等业务应用的“历史遗留”的数据源。流数据平台必须与流设备的信息相结合才能够提高数据洞察的准确性。

  集中性:一个核心租户的流数据平台的架构是很容易实现的。采用集中式架构的流数据平台,不仅可以简化流数据的来源和输出之间的连接,而且可以提供统一的技术和业务元数据存储库,将数据转换为通用的数据格式。

  持久性:数据是否能够成功落到数据仓库或基于Hadoop的数据湖中,是考察流数据平台的关键因素。这里指的不仅仅是流数据的采集和分析,还包括历史数据的处理分析,包括基于模式的策略规则、基于流数据分析处理的聚类分析。

  以上五个核心属性是建立流数据平台的基础,数据驱动型企业要想有长足的发展,那么一个功能完整、架构强大的流数据平台是必不可少的。

作者:田晓旭

来源:IT168

原文链接:流数据平台的5个核心属性

时间: 2024-09-23 10:52:06

流数据平台的5个核心属性的相关文章

【译】使用Apache Kafka构建流式数据平台(1)

前言:前段时间接触过一个流式计算的任务,使用了阿里巴巴集团的JStorm,发现这个领域值得探索,就发现了这篇文章--Putting Apache Kafka To Use: A Practical Guide to Building a Stream Data Platform(Part 1).在读的过程中半总结半翻译,形成本文,跟大家分享. 最近你可能听说很多技术名词,例如"流式处理"."事件数据"以及"实时"等,与之相关的技术有Kafka.S

以HANA为核心 SAP实时数据平台详解

文章讲的是以HANA为核心 SAP实时数据平台详解,在收购Sybase之前,SAP还不算是个数据库厂商,但其在ERP市场的地位举足轻重.那时的SAP只能通过与其他厂商合作来满足其商务套件的数据库需求,其中最大的合作伙伴就是甲骨文.SAP每年销售约10亿美元的甲骨文数据库,这对于SAP而言就如同在竞争对手的身上撒钱. 由此,Sybase对SAP的意义不言而喻.收购之初,Sybase在全球的数据库业务有超过一万个客户,拥有5%的全球市场占有率,在中国数据库市场这个比例达到18%,被认为是继Oracl

建设大数据平台,从“治理”数据谈起

本文是大数据杂谈 6 月 15 日分享内容整理. 一.大数据时代还需要数据治理吗? 数据平台发展过程中随处可见的数据问题 大数据不是凭空而来,1981 年第一个数据仓库诞生,到现在已经有了近 40 年的历史,相对数据仓库来说我还是个年轻人.而国内企业数据平台的建设大概从 90 年代末就开始了,从第一代架构出现到现在已经经历了近 20 年的时间. 在这 20 年的时间里,国内数据平台实施者可以说是受尽折磨,数据项目一直不受待见,是出了名的脏活累活. 可以说,忽视数据治理给数据平台建设带来了不少问题

浅谈开源大数据平台的演变

浅谈开源大数据平台的演变 2015-04-16 腾讯大数据一说到开源大数据处理平台,就不得不说此领域的开山鼻祖Hadoop,它是GFS和MapReduce的开源实现.虽然在此之前有很多类似的分布式存储和计算平台,但真正能实现工业级应用.降低使用门槛.带动业界大规模部署的就是Hadoop.得益于MapReduce框架的易用性和容错性,以及同时包含存储系统和计算系统,使得Hadoop成为大数据处理平台的基石之一.Hadoop能够满足大部分的离线存储和离线计算需求,且性能表现不俗:小部分离线存储和计算

阿里十年经验输出,大数据平台“数加”的前世今生

2016 年1月20日,在云栖大会上阿里云发布了一站式大数据平台"数加",该平台集合了阿里巴巴十年的大数据能力以及上万名工程师实战检验,该平台是一站式的解决方案,首批亮相20款产品,覆盖数据采集.计算引擎.数据加工.数据分析.机器学习.数据应用等数据生产全链条. 数加平台由大数据计算服务(MaxCompute).分析型数据库(Analytic DB).流计算(StreamCompute)共同组成了底层强大的计算引擎,速度更快.成本更低.计算引擎之上,"数加"提供了丰

携程基于Storm的实时大数据平台实践

  本文讲解了携程在实时数据平台的一些实践,按照时间顺序来说明我们是怎么一步一步构建起这个实时数据平台的,目前有一些什么新的尝试,未来的方向是怎么样的,希望对需要构建实时数据平台的公司和同学有所借鉴. 为什么要做实时数据平台 首先先介绍一下背景,为什么我们要做这个数据平台?其实了解携程的业务的话,就会知道携程的业务部门是非常多的,除了酒店和机票两大业务之外,有近20个SBU和公共部门,他们的业务形态差异较大,变化也快,原来那种Batch形式的数据处理方式已经很难满足各个业务数据获取和分析的需要,

剖析大数据平台的数据处理

无论是采集数据,还是存储数据,都不是大数据平台的最终目标.失去数据处理环节,即使珍贵如金矿一般的数据也不过是一堆废铁而已.数据处理是大数据产业的核心路径,然后再加上最后一公里的数据可视化,整个链条就算彻底走通了. 如下图所示,我们可以从业务.技术与编程模型三个不同的视角对数据处理进行归类: 业务角度的分类与具体的业务场景有关,但最终会制约技术的选型,尤其是数据存储的选型.例如,针对查询检索中的全文本搜索,ElasticSearch会是最佳的选择,而针对统计分析,则因为统计分析涉及到的运算,可能都

猎豹移动CTO范承工:大数据是移动营销的核心

刚刚结束不久的2016秒针系统广告主峰会是范承工担任猎豹移动CTO以来首次对媒体发声,这位被称为"硅谷华人技术领袖"的分布式系统.云服务基础设施以及大数据领域专家针对数字营销的创新及发展趋势做了精彩解读.在会后的媒体专访中,范承工对猎豹移动大数据能力及大数据营销价值进行了解析.从范承工的专访中,看得出猎豹移动致力于成为移动领域大数据玩家的决心,希望在未来与广告主共同推动移动营销的创新及发展. 猎豹移动CTO范承工,大数据领域的专家 1990年,17岁的范承工就离开家乡上海,开始了美国的

从存储、实时、安全的角度谈如何建立完整可用的企业大数据平台

要建立一个大数据系统,我们需要从数据流的源头跟踪到最后有价值的输出,并在现有的 Hadoop 和大数据生态圈内根据实际需求挑选并整合各部分合适的组件来构建一个能够支撑多种查询和分析功能的系统平台.这其中既包括了对数据存储的选择,也涵盖了数据线上和线下处理分离等方面的思考和权衡.此外,没有任何一个引入大数据解决方案的商业应用在生产环境上承担的起安全隐患. 1. 计算框架篇 大数据的价值 只有在能指导人们做出有价值的决定时,数据才能体现其自身的价值.因此,大数据技术要服务于实际的用途,才是有意义的.