数据架构师: 您要治理什么?

Robert Catterall 是一位数据库专家,他想确定实现数据治理的必要性。在 IBM Information Governance Solutions 的主管 Steven Adler 的帮助下,他探索了数据治理的原则以及它如何帮助数据库团队。

我是一位数据库工作者(更准确地说,是 DB2 工作者)。我的工作处于 IBM Information Management 软件组合的低层。如果说那些从事分析、主数据管理、数据集成和其他高层软件技术的人是数据巨轮的高级船员,他们站在舰桥上,穿着带金色肩章的白制服,用双筒望远镜了望远方,那么我是在轮机舱工作。当舰桥上传来指令,命令我加快数据流动的速度时,我回答说,“我们已经到极限了,船长!” … 但是我仍然要想办法完成任务。你们成天谈论战略和模式,而我谈论的是比特和字节、速度和供应。欢迎来到我的世界。好了,不打比方了,我们来讨论实际问题吧!

我曾经遇到过许多似是而非的概念,最近遇到的一个是 “数据治理”。对不起,长官,但是这听起来是针对某个问题的解决方案。让我告诉您一个小秘密:数据是没有自主行动力的,这意味着它不需要 “治理”。它需要操控,我和我的朋友们能够应付,谢谢您。请找别的什么东西去 “治理” 吧!

您说什么?您在谈到治理数据时,实际上是打算治理别的什么东西?OK,现在我感兴趣了。请多说点儿,我洗耳恭听。

重点在于人

关于数据治理,我应该听取谁的意见?没人比 Steve Adler 更合适了,他是 IBM Information Governance Solutions 的主管和 IBM Information Governance Council 的主席。他在电话上告诉我 “数据治理” 这个词在修辞方面的矛盾性实际上是有意义的:它提醒人们提出问题。“‘数据治理’ 究竟是什么意思?” 谈话就此展开了。Adler 指出,真正的目标是对行为进行治理。

人与数据库交互:他们引导数据流的走向;他们解释并处理数据请求。人也会犯错 — 常常是由于他们采用的过程和依赖的应用程序系统有缺陷 — 这会在信息管道中引入错误,给下游造成数据质量问题。Adler 指出,数据治理的意图主要是系统化地找到并解决可能引入错误的点。目标是形成决策者能够信任的数据 — 还要向他们提供数据可信的证明。

这是一个很不错的说词。但在加入您的事业之前,我想看看 “蓝色巨人” 是如何吃 “垃圾食品” 的。Adler 问我是否了解 IBM 的产品目录。我确实了解 — 毕竟我为 IBM 工作了 17 年。IBM 有大量信息,有多达 1.2 亿条记录。显然,这些记录中很大一部分包含错误的信息:错误、缺失和未及时发布的数据。在 255 个 IBM 产品公告中,只有 5 个完全没有错误。这真是让人震撼的统计数字。

为了找出数据质量问题的来源,团队在通向生产数据库的数据流中不同的位置上设置 “捕捉器”。捕捉器帮助团队发现在特定条件下可能发生的错误。找出问题的原因之后,团队就可以设计和实现基于过程和基于技术的解决方案,从而消除不准确的信息的来源。

不是我的问题(也许是?)

我想,只要消除可能导致数据质量问题的条件就行了,所以由您负责。我希望您成功。不需要围着我和 DBA 照管的数据库打转 — 它们很可靠。有多可靠?精确度至少有 99.9%。我谈论的数据库有多少数据记录?生产数据库可能有超过 10 亿条记录。是的,由于数据库规模如此之大,尽管错误率非常低,错误数量仍然相当大。好吧,您说的有道理。在数据库内部和周围放上一些捕捉器可能是好主意。

Adler 说,但是不要就此止步,因为数据质量问题不仅仅是数据记录不准确。有时候,急迫的问题是必须处理数据分类。例如,一个组织通过并购形成了更大的规模,最终通过多个业务线为更大型的企业客户提供服务。客户公司之一抱怨说,当他们通过不同业务线的代表向服务提供组织提出同一个问题时,却得到了不同的回答。这是因为对于不同的业务线,相同术语的含义不同。这是数据定义问题 — 数据治理要通过有效的主数据管理 (MDM) 消除此类问题。

如何从 A 到 B?

我承认,我开始看出数据治理的一些价值了。这个概念不像我最初认为的那么不知所谓。但是,看到潜在价值和获得实际价值是两回事儿。如何通过数据治理工作获取价值?从哪里做起?如何推动不断进步?

Adler 告诉我他喜欢的方式分为六个步骤:

确定目标。一些目标可以有变动,其他目标是固定的(例如处理数据质量问题)。是的 — 在出发之前,必须明确要去哪里。

确定要度量什么。如果想要提高数据质量,那么如何能够知道是否已经取得了进步?可能要检查存储库中一定比例的文档,记录信息不正确或缺失的情况。决定度量的过程和条件对于评估基线情况和跟踪过程很重要。我明白了。说说容易:如果想要说服人,就要提供数字。

了解组织的决策模型。是专制模型?代表模型?还是民主模型?无论是哪种,它适合您的公司吗?您正在开发的数据治理策略支持这种决策模型吗?决策 “更好” 的含义是什么?需要做出大量决策吗?还是要更快地做出决策?我想,在改进数据质量时,总是要花时间评估数据在自己的环境中如何驱动决策。可能会发现需要改进的东西。

有效地传播数据治理策略。如何把策略的相关信息告诉相关人员和感兴趣的其他各方?通过电子邮件?通过时事通讯?不能只依靠同事之间的口头交流。

度量结果。数据治理策略取得的实际效果如何?如果已经制定了度量进展的计划(这个列表中的第二项),那么得到具体的数字应该不太困难。解释这些数字会很有意思。

审查整个数据治理工作。是否采用了适当的过程?是否应用了适当的技术?是否实现了有效的控制?“审查” 这个词有点儿让我不舒服,但是我知道对于策略来说这是不可缺少的,无论是数据治理策略还是其他策略。我不喜欢评判别人的工作,但是我理解有时候需要这么做。

这些是非常高级的检查项,具体的项目计划应该远远不只六个步骤。但是,在面对复杂的任务时,以适当方式对难题进行拆分确实有助于明确工作重点。对于我来说,Adler 的方法看起来是不错的问题拆分方式。可以以此为基础开展工作。

好吧,我接受了

一个城市的居民嘲笑另一个城市时会说,“那儿没有 ‘那儿’ 这个概念”。我过去也是这么看待数据治理的:很有意思的概念,但是拜托 — 它有什么实际意义吗?Steve Adler 在关于数据治理的业务价值的争论中说服了我。我现在认为数据治理是有价值的。

因此,如果信息管理领域的大人物再到数据库 “轮机舱” 与您谈论数据治理,那么好好听他们说。最好考虑一下自己能够在哪些方面发挥作用。宏大的计划如果能够参考实干家的意见,往往会取得更好的结果。

就到这里吧。也许我会在咖啡机旁遇到您。谁知道呢?也许我们会轻松地谈论一下数据治理。

本文作者:佚名

来源:51CTO

时间: 2024-10-31 09:22:32

数据架构师: 您要治理什么?的相关文章

优酷数据架构师:搭建Hadoop平台三步走

文章讲的是优酷数据架构师:搭建Hadoop平台三步走,2013年11月22-23日,作为国内唯一专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)将于北京福朋喜来登集团酒店隆重举行.届时,来自国内外各行业领域的近千名CIO.CTO.架构师.IT经理.咨询顾问.工程师.Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举. ▲点击进入Haoop中国技术峰会 Haoop中国技术峰会由

"大数据"相关专业人才受欢迎数据架构师薪酬最高

"随着全球对数据科学家及'大数据'研究人员和分析师需求持续增长,掌握'大数据'相关专业技能的人才往往能够获得高于平均水平的薪酬和更全面的职业发展方向."今天,悉尼科技大学高级讲师鲁海燕在接受本网记者采访时表示,数据科学家是现今需求最旺盛的职业之一,一些从海外顶尖大学取得"大数据"相关专业学位的毕业生尤其受欢迎. 鲁海燕介绍,'大数据'关乎于利用包括如数据视觉化等一些特殊新颖的手段,分析处理庞大且复杂的数据集,在许多领域都是至关重要的.目前,它应用于电子商务.疾病预防

大数据架构师必读的NoSQL建模技术

从数据建模的角度对NoSQL家族系统做了比较简单的比较,并简要介绍几种常见建模技术. 1.前言 为了适应大数据应用场景的要求,Hadoop以及NoSQL等与传统企业平台完全不同的新兴架构迅速地崛起.而下层技术基础的革命必将影响上层建筑:数据模型和算法.简单地将传统基于第四范式结构化关系型数据库的模型拷贝到新的引擎上,无异于削足适履,不仅增加了大数据应用开发的难度和复杂度,又无法发释放新框架的潜能. 该如何构建基于NoSQL的数据模型?现在能供参考的公开知识积累要么是空虚简单的一句"去规范化&qu

大数据架构师:hadoop、Storm该选哪一个

首先整体认识:Hadoop是磁盘级计算,进行计算时,数据在磁盘上,需要读写磁盘;http://www.aliyun.com/zixun/aggregation/13431.html">Storm是内存级计算,数据直接通过网络导入内存.读写内存比读写磁盘速度快n个数量级.根据Harvard CS61课件,磁盘访问延迟约为内存访问延迟的75000倍.所以Storm更快. 注释: 1. 延时 , 指数据从产生到运算产生结果的时间,"快"应该主要指这个. 2. 吞吐, 指系统单

数据分析师?架构师?科学家?大数据时代的热门职业

沈阳市大数据局公开招聘110名智慧城市建设信息员,7月7日起至11日报名,引起社会广泛关注,报名网站点击率迅速蹿升. 大数据已是当下信息时代一个非常热的概念,大数据时代到来,将给人才发展带来哪些机会?谁将是未来最热门的人才?大数据时代的热门职业都有哪些?让我们一起来看看吧-- 说起大数据,可能你还会觉得云里雾里,实际上,大数据就发生在你我身边,和小编一起先来点入门级的-- 你的通话记录.上网记录,会留在三大电信运营商那里: 你的身份.家庭房产信息,会通过刷信用卡而被银行知晓: 你去了哪里,现在哪

郑保卫:传统企业大数据应用的数据架构

文章讲的是郑保卫:传统企业大数据应用的数据架构,2014年4月10日-12日,第五届中国数据库技术大会(DTCC 2014)在北京五洲皇冠国际酒店拉开序幕.在为期三天的会议中,大会将围绕大数据应用.数据架构.数据管理.传统数据库软件等技术领域展开深入探讨,并将邀请一批国内顶尖的技术专家来进行分享.本届大会将在保留数据库软件应用实践这一传统主题的基础上,向大数据.数据结构.数据治理与分析.商业智能等领域进行拓展,以满足于广大从业人士和行业用户的迫切需要. ▲点击进入第五届中国数据库技术大会(DTC

双活架构师带来的预告

访谈实录 冯总,能给大家介绍一下你们公司的业务吗? 聚美优品是一家以垂直电商起家,在美国纽交所上市,主要经营的品类是化妆品,售卖模式有自营,海淘,第三方商家入驻.聚美的客户群主要以爱美的女性客户为主.近年来公司也在尝试很多其他的方向,比如直播,影视,时尚,游戏等. 请和大家介绍下你和目前所从事的工作 ? 我现在主要负责聚美优品的数据平台组,数据平台组包含dba团队和大数据团队,数据平台组属于基础架构部.简而言之数据平台组提供了所有数据相关的存储与计算能力. 你觉得架构师应该具备哪些素质? 不同类

架构师必然是孤独的领袖

在我看来,架构师应该是两个领域的问题的专家.一个是问题领域,一个是计算机领域.而且这两个领域都必须要有很强的基本功.在计算机领域,他必须熟悉很多的体系结构:在问题领域,他必须了解要解决的问题,能够很快地辨识这些问题,并且可以把这些问题转换成计算机领域的描述方式.这两个领域缺一不可,而且了解还必须要深入.   除此之外,架构师必须要具备逻辑思维能力,也就是分析问题和解决问题的能力.其他类型的技术人员只需要了解一个相对比较小范围的知识.比如一个程序员,只需要按照架构师给出的解决方案,把你的任务完成就

专访MongoDB官方大中华区首席架构师唐建法:MongoDB将会领导数据处理新趋势 —— 一个操作型的数据平台

杭州·云栖大会将于2016年10月13-16日在云栖小镇举办,在这场标签为互联网.创新.创业的云计算盛宴上,众多行业精英都将在这几天里分享超过450个演讲主题. 为了帮助大家进一步了解这场全球前言技术共振盛会的内容,采访了各个论坛的大咖,以飨读者. 以下为正文: 唐建法,MongoDB 中文社区 mongoing.com 发起人,MongoDB官方大中华区首席架构师.主要职责为企业客户提供MongoDB相关解决方案,在社区推广MongoDB技术,提高MongoDB的市场接受程度. MongoDB