文章讲的是流数据平台的5个核心属性,大数据中蕴含的信息能够帮助企业以更广的视角来洞察数据,提升企业的决策力。数据驱动型的企业也如雨后春笋般冒出,但是数据驱动型企业看似前景光明,其实面临着很多挑战。随着数据类型的多样化,数据驱动型企业必须考虑很多新的数据源,比如移动应用程序、全球网站、物联网的传感器信息等等。这些新的数据源就要求技术人员要熟悉了解流数据平台。
流数据平台的集成、流数据的采集以及流媒体应用的分析,有五个核心属性是必不可少的。
低延迟:流数据平台需要从流中获得数据,并匹配合适的数据源。流媒体数据平台的关键之一就是要有和特定的商业模式或场景匹配的数据采集和近实时分析的能力。当你需要等待数据落到数据仓库或基于Hadoop的数据湖时,那么流分析的实时性价值就会被降低。尤其是在一些基于位置的应用或者是预测性维护的应用程序中,一旦在数据创建或落地的过程中花费太多的时间,那么就可能会对企业业务有很大的影响,比如错失重要客户,甚至会造成极大的经济损失。
可扩展性:流数据平台不仅仅是连接两个在企业防火墙后面的数据源,同时它还需要能够匹配连接设备的增长速度以及物联网的发展速度。这也就意味着流数据平台需要获得不同来源的大量数据,这些数据包括来自内部和外部以及第三方的数据。
多样化:流数据平台不仅仅要支持移动设备、云端,物联网等等这些“新时代”的数据源,也要支持关系数据库、数据仓库和ERP、CRM、SCM等业务应用的“历史遗留”的数据源。流数据平台必须与流设备的信息相结合才能够提高数据洞察的准确性。
集中性:一个核心租户的流数据平台的架构是很容易实现的。采用集中式架构的流数据平台,不仅可以简化流数据的来源和输出之间的连接,而且可以提供统一的技术和业务元数据存储库,将数据转换为通用的数据格式。
持久性:数据是否能够成功落到数据仓库或基于Hadoop的数据湖中,是考察流数据平台的关键因素。这里指的不仅仅是流数据的采集和分析,还包括历史数据的处理分析,包括基于模式的策略规则、基于流数据分析处理的聚类分析。
以上五个核心属性是建立流数据平台的基础,数据驱动型企业要想有长足的发展,那么一个功能完整、架构强大的流数据平台是必不可少的。
作者:田晓旭
来源:IT168
原文链接:流数据平台的5个核心属性