大数据治理需要具备哪些能力和关键技术?

在企业数据建设过程中,大数据治理受到越来越多的重视。从企业数据资产管理和提升数据质量,到自服务和智能化的数据应用,大数据治理的内容在不断发展和完善,其落地实施的过程中会遇到各种各样的难题和挑战。本篇文章通过分析大数据治理建设中的沟沟坎坎,总结出了大数据治理需要具备的能力和关键技术。

一、困难重重却充满光明的大数据治理发展之路

1. 传统数据治理一直无法逃脱的魔咒

大数据治理从建设内容和实施目标上可以划分成不同的阶段,每个阶段完成不同的任务,随着阶段的递进,建设内容逐步加深,不同的企业切入点和诉求也各不相同。大致分为以下几个阶段:

(1) 摸家底阶段

  • 内容:企业元数据梳理和采集
  • 目标:构建企业数据资产库

(2) 建体系

  • 内容:建立企业标准和质量提升体系
  • 目标:提升数据质量

(3) 促应用

  • 内容:自服务通道、构建企业知识图谱
  • 目标:数据智能应用

然而,大数据治理建设之路并不是一帆风顺的,甚至可以说充满了各种问题和困难,如何管理企业级的数据资产、如何让业务积极参与到数据建设中来、如何降低数据治理的落地难度等一系列问题,一直困扰着数据治理的发展,传统数据治理的问题主要体现在以下几个方面:

(4) 管理范围窄

要做数据治理首先要知道有哪些数据,传统的数据治理往往只管理了数据领域,很少关注业务、管理和开发相关的数据资产,数据管理范围比较窄,而且,受限于技术实现,即使在数据领域的数据资产也很难做到精确管理;

(5) 业务难结合

业务元数据的广泛缺失,导致业务人员无法使用技术性的元数据系统,元数据缺乏业务用户,使用者少;

(6) 应用场景缺

元数据被当成单独的系统,而不是广泛的技术基础,导致只关心元数据本身的应用场景;

(7) 技术不完善

在技术层面存储缺乏扩展性,采集自动程度不高,管理实时性不高。

2. 自服务大数据治理是解决问题之道

自服务的大数据治理平台具备管理、开发、共享、使用等能力,通过自动、自助、智能化的大数据治理,能够实现对数据的找、供、用、治,从而一站式解决传统数据治理在大数据时代的各种难题,具体涉及到以下几个方面。

(1) 建好数据管理体系,快速识别数据

自服务大数据治理平台可以实现有数据可管理。现在的企业数据资产繁杂众多,特别是建设大数据平台的企业,数据的类型、分布、实现技术、所属部门等都很繁杂,通过手工一点点梳理是不现实的,如何低成本、快速有效地将数据梳理和管理起来?这是做大数据治理遇到的第一个坎。

自服务大数据治理平台可以通过自动化手段,自动识别企业数据资产并标明数据方位和属性,建立业务能理解的数据服务目录。

(2) 建立数据治理体系,监控并快速发现问题

自服务大数据治理平台可以保障企业数据资产的质量。企业内数据环境复杂,很容易出现数据不一致、数据不及时、数据缺失等一系列问题,如何识别并快速定位数据问题?特别是针对海量数据,如何在不影响性能情况下找出问题数据?这是做大数据治理遇到的第二个坎。

通过自服务大数据治理平台建立和支撑起基于数据指标、质量检核、问题发现和监控的完善数据治理体系,从事前、事中和事后等各个环节规避、发现和解决数据问题,将能保证数据应用无后顾之忧。

二、大数据治理技术需要不断革新

数据治理的目标是把数据管起来、用起来、保证数据质量,这些目标离不开各种技术的支持,这些技术包括元数据自动采集和关联、数据质量的探查和提升、数据的自助服务和智能应用等。

1. 管起来:数据资产的自动化采集、存储技术要实现大数据治理的资产管理,需要做足三个方面的工作:

采集:指从各种工具中,把各种类型的元数据采集进来。

存储:采集元数据之后需要相应的存储策略来对元数据进行存储,这需要在不改变存储架构的情况下扩展元数据存储的类型;

管理和应用:在采集和存储完成后,对已经存储的元数据进行管理和应用。

第一,针对数据资产的存储,模型体系规范为元数据管理提供了基础,通过模型管理可以实现统一稳定的元数据存储,统一的标准和规范能很好地解决通用性和扩展性。

传统数据资产管理采用CWM规范进行数据资产存储设计,该规范提供了一个描述相关数据信息元数据的基础框架,并为各种元数据之间的通信和共享提供了一套切实可行的标准。但是,随着元数据管理范围的不断扩大,CWM规范已经不能满足通用的元数据管理需求,针对微服务、业务等也需要一套规范支撑。MOF规范位于模型体系最底层,可以为元数据存储提供统一的管理理论基础。

第二,元数据管理第二个核心问题是解决各类元数据的采集,由于元数据类型多种多样,而且在不断增加,所以,如何以最小代价,快速纳入管理新类型元数据的能力,是元数据管理的核心。

采用可插拔的适配器方式实现元数据的采集是一个很好的选择。其中,数据采集适配器应支持各类数据源的采集,当有一个新的数据源需要接入的时候,只需按照规范快速开发一套针对性的适配器,就能实现新类型元数据的纳入管理。

第三,与人工相比,技术的最突出特点是速度快和精确。因此,如何通过技术手段精确地获取数据资产是关键,特别是元数据关系,一般都存在于模型设计工具、ETL工具,甚至开发的SQL脚本中,因此需要通过工具组件解析(接口、数据库)、SQL语法解析等手段完成关系的获取和建立。准确解析后的关系,还需要通过直观的关系图展现出来。

2. 有保障:数据质量探查和提升技术

通过大数据治理来提升数据质量的过程中,涉及到很多环节、工作和技术,其中包括:通过合理的技术找出数据问题并找到问题数据;从各个维度监控数据问题,并能通过最直观和快捷的方式反馈给相关责任人;实现问题发现、认责、处理、归档等数据问题的闭环解决流程等。中间主要涉及到以下两个方面:

第一,要想及时全面地找到问题数据,不仅要关注关键点,还要有合适的方法。数据最容易出现质量问题的地方就是数据集成(流动)点,例如:性别在单系统中,有1和0或者男和女表示都行,但是系统间集成时就会有问题。因此,解决数据质量的关键,就在于在集成点检查数据质量。另外,针对大数据量的数据质量检查,即要保证实时性,也要保证不影响业务系统的正常运行,因此在对特别大的数据量进行检查时,要采用抽样检查的方式。

第二,数据问题发现后,还要直观地将数据问题展现出来并及时通知相关人员。因此大数据治理平台应提供实时、全面的数据监控,实现多维度实时的数据资产信息展示:

从作业、模型、物理资源等各方面进行全面的数据资产盘点;

对数据及时性、问题数据量等方面的数据健康环境进行全面的预警。

3. 用起来:自助化数据服务构建技术

大数据治理的最终目标是为最终用户提供数据,这需要快速找到数据,并快速建立数据交换的通道。

知识图谱是一种非常好用、直观的数据应用方式。人工智能的知识图谱构建,可以从以下步骤考虑:

基于企业元数据信息,通过自然语言处理、机器学习、模式识别等算法,以及业务规则过滤等方式,实现知识的提取;

以本体形式表示和存储知识,自动构建成起资产知识图谱;

通过知识图谱关系,利用智能搜索、关联查询等手段,为最终用户提供更加精确的数据。

基于元数据的自助数据服务开发,可以简单快速地建立数据通道。通过自助化的数据生产线,数据使用方(业务人员)大大减少了对开发人员依赖,80%以上的数据需求,都能通过自己进行整合开发,最终获取数据。让所有用数据的人能方便得到想要的数据。其中,提供所需数据的自助查询能力、自动生成数据服务、及时稳定的获得数据通道、保证数据安全是实现自助化的大数据生产线的四个关键点。

三、如何选择合适的大数据治理工具?

工欲善其事必先利其器,大数据治理的落地开展离不开工具的支撑。大数据治理工具一般分为两类:一类是单个工具,另一类是集成平台,用于不同的阶段、场景和客户。其中,单独工具有:元数据、数据质量、主数据等,集成平台包括数据资产管理、数据治理平台、自助服务平台等。

下面重点介绍其中两个核心的工具:一个是元数据,另一个是自助数据服务平台;

1. 大数据治理的核心——元数据管理工具

元数据是大数据治理的核心,元数据管理工具应该支持企业级数据资产管理,并且从技术上支持各类数据采集与数据的直观展现,从应用上也要支持不同类型用户的实际应用场景,一个合格的元数据管理工具,需要具备以下几项基本能力:

首先,元数据要有全面的数据管理能力。无论是传统数据还是大数据,无论是工具还是模板等,都应该是元数据的管理范畴。对于企业来说,要想统一管理所有信息资产,还依靠原来人工录入资产的方式肯定是不行的,企业需要从技术上提供各种自动化能力,实现对资产信息的自动获取,包括自动数据信息采集、自动服务信息采集与自动业务信息采集等,这要求企业使用的数据管理工具支持一系列的采集器,并且多采用直连的方式来采集相关信息。

其次,尽管元数据是一个基础的管理工具,也需要具备好的颜值和便捷的使用方式,以便给用户带来好的应用感受。作为一款元数据管理工具,能让用户能在一个界面全面了解到元数据信息,通过图像从更多维度、更直观地了解企业数据全貌和数据关系是很重要的。除此之外,通过H5等流行的展现技术实现各浏览器的兼容,支持界面的移植也是元数据管理工具必不可少的能力。

再次,元数据管理工具不仅仅是一个工具,还需要关注各类人的使用诉求,跟具体用户的使用场景相结合。对于业务人员来说,通过元数据管理的业务需求管理,能更容易地和技术人员沟通,便于需求的技术落地;对于开发人员来说,通过元数据管理能管控系统的开发上线、提升开发规范性,自动生成上线脚本,降低开发工作难度和出错几率;对于运维人员来说,通过元数据管理能让日常巡检、版本维护等工作变得简单可控,辅助日常问题分析查找,简化运维工作。

2. 大数据治理的最佳实践——自助化数据服务平台

大数据治理最终目标不仅仅是为了管理数据,而是为用户提供一套数据服务的生产线,让用户能通过这条生产线自助地找到数据、获得数据,并规范化地使用数据,因此自助化数据服务共享平台是大数据治理必不可少的工具。

作为大数据治理的落地工具,自助化数据服务共享平台不仅要为开发者提供一套完整的数据生产线,也需要给运维者提供易用的监控界面,毕竟系统的运维才是工具应用的常态。全局的数据资产监控能力和数据问题跟踪能力同样重要,通过全局的数据资产监控能力,能使客户方便地了解到企业数据共享交换的全貌、系统间的数据关系和数据提供方和消费方的使用情况;通过数据问题跟踪能力,能实现数据问题的智能定位,减少运维工作难度。

四、总结

大数据治理对企业数据建设的重要性不言而喻,然而实现的困难有时也会让人望而却步,选择合适的技术和工具会达到事半功倍的效果。希望通过本文介绍能够帮助在建,或者准备规划大数据治理的各位,在大数据治理的资产管理、数据质量保证、数据应用等方面的技术和工具选择上有所帮助。

本文作者:佚名

来源:51CTO

时间: 2024-09-24 06:05:20

大数据治理需要具备哪些能力和关键技术?的相关文章

大数据治理:地方政府准备好了吗?

 一.引言 大数据时代的来临,为政府治理创新和公共服务绩效改善创造了巨大契机,但也提出了不容忽视的严峻挑战.2015年8月,国务院印发<促进大数据发展行动纲要>(国发[2015]50号,以下简称<行动纲要>),将大数据发展和应用提高到国家战略层面.这项动议几乎要把全社会的所有力量都动员起来,但是对地方政府的角色和定位却并没有明确和清晰的界定.<行动纲要>在两处专门提及地方政府,一处是"结合信息惠民工程实施和智慧城市建设,推动中央部门与地方政府条块结合.联合试点

浅谈自服务的大数据治理在企业数字化转型中的妙用

一.用户与大数据之间的鸿沟让数字化转型困难重重 本文讲的是浅谈自服务的大数据治理在企业数字化转型中的妙用,目前虽然不少企业已经广泛建设大数据平台,但却难以直接使用平台中的大数据,企业人员与大数据之间存在着一道难以逾越的鸿沟. 这道鸿沟的出现导致企业在使用大数据的过程中出现数据不可知.需求难实现.数据难共享等一系列问题: 1.数据不可知,数据价值无处可寻 企业环境中到底有哪些数据,这些数据在哪里,慢慢变成了大数据平台的"迷",用户迷失在动辄几十PB的数据中.对于企业管理者来说,无法从管理

对于坐拥海量数据的金融企业来说,大数据治理意味着什么?

玉不琢不成器,一块没有经过雕琢的美玉,需要经过琢磨打造之后,才能显现出它的真正价值.对于金融企业来说,数据不只包括自身业务系统中为支撑正常业务流转的数据,还包括从外界交易流中收获的大量第三方数据,这些数据就像是未经雕琢的美玉,需要"大数据治理"这一"雕琢"的过程来对数据进行价值发现. 对于坐拥海量数据的金融企业来说,大数据治理意味着什么? 责任编辑:editor004 |  2016-10-10 11:09:15 本文摘自:C114中国通信网 玉不琢不成器,一块没有

金融行业大数据治理背后藏着什么样的答案?

ZDNET至顶网CIO与应用频道 11月04日 北京消息:金融行业是典型的数据驱动行业,自人民银行携手全国金融标准化技术委员会启动<银行业标准化体系框架>研究工作以来,人民银行先后下发了<金融业机构信息管理规定>.<贷款统计分类及编码标准(试行)>.<存款统计分类及编码标准(试行)>等多项标准,并牵头组建了有24家银行组成的金融统计标准化工作小组,加大数据标准化的工作力度."数据是重要资产"的观念已经在金融行业成为共识.那么,问题来了:

数字化转型中的大数据治理架构

大家好,我今天分享的主题是大数据治理.我们如何使用好大数据资产,才能够更好地发挥其中的价值? 主要大纲: 一.数字化时代大数据向服务化发展 二.数字化时代的大数据治理架构 三.大数据治理的12个技术原则 四.总结 一.数字化时代大数据向服务化发展 本文讲的是数字化转型中的大数据治理架构,数字化时代,我们的数据来源比以前更广了.第一,之前传统企业政府的IT系统主要是面向内部使用,产生了一些信息,现在已经面向外部使用了:第二,更多行为信息.社交信息都会变成企业的数据:第三,我们有很多非结构化的数据,

大数据治理:成熟度评估框架

Goals:目标 Business Outcomes:业务成果 Enablers:支持要素 Organizational Structures & Awareness:组织结构和认识 Stewardship:管理人员 Data RiskManagement:数据风险管理 policy:策略 Core Disciplines:核心准则 Data Quality Management:数据质量管理 Information Lifecycle Management:信息生命周期管理 Informati

环球时报:大数据时代挑战网络执政能力

联合国去年发布<大数据促发展>白皮书,提示各国政府可由社交网络和手机短信的"情绪分析"预测失业率等.大数据来袭,恰逢中国"网络反腐"鼎沸之秋.随着微博实名举报.不雅视频流播,官方网络执政能力遭到全天候挑战. 其实,大数据时代主动收复网络失地,恰是促改革.反腐败的良机.原因在于:其一,网民在网络上能做的,不论证据打捞还是信息披露,反腐败专门机关都能做,而且能做得更专业:其二,不论原生态爆料还是原创性评论,网民所做的越界之处在很多发达国家亦难容忍. 在大数据

政府拥抱大数据 治理迎来新格局

文章讲的是政府拥抱大数据 治理迎来新格局,在全社会信息量爆炸式增长的背景下,政府部门该如何拥抱大数据?专家建议,一方面要加强与大数据分析企业.互联网公司的合作,获取更丰富的数据,另一方面要开放一些政府数据给企业,发挥企业的智力资源与技术实力,为政府提供决策支撑- 国办近日印发<关于运用大数据加强对市场主体服务和监管的若干意见>,提出充分运用大数据先进理念.技术和资源,加强对市场主体的服务和监管,推进简政放权和政府职能转变,提高政府治理能力. "这是适应时代需求的必然选择,是智慧城市建

“工程师”与“园丁”:大数据治理中的政府角色

在大数据治理中,政府必须同时扮演好两种角色,即"工程师"和"园丁"."工程师"呈现了政府刚性的一面,它是技术专家对经济社会的直接干预:除了刚性,政府还有"园丁"的一面,主要体现召集人.催化剂的角色,给社会发展和成长留足空间. 在大数据治理中,政府的目标是多样的.一方面要提高行政效率,促进大数据产业发展,引领和带动新兴产业,推动经济转型升级:另一方面要加强监管,维护社会公平正义,预防数据泄露,减少社会风险.政府必须同时扮演好两种