这一状况是如何形成的
要理解这种预期的不协调,要先看看我们是如何走到一这步的。在90年代,数据仓库运动的主要目标是通过解决单一版本的事实满足机构的需求。
这需要仔细调和不同用户和部门之间对数据的解释,以至于每个人都可以达成共识。此外,有严格的数据质量检查,所以决策者对数据有信心。
因为大规模并行处理解决方案(比如Hadoop和列式数据存储或云)在90年代并不普遍,数据模型必须由专家进行设计,优化和维护以获得良好表现。
这些因素阻碍了让新类型的数据进入数据仓库,并经常导致昂贵,多年的程序,最终只有非常有限的效用。
今天,对单一版本企业级数据的需要不再是存储历史数据的主要目标。用户想要完全访问所有数据并与之交互的能力,能够快速提取洞察并释放数据的威力。
为了达到这个目标,政府的数据管理工作的焦点需要从数据仓库转移到数据管理。
超越数据仓库
在我们当前的大数据的时代,单一企业的数据解释已经过时。旧的数据仓库时代专注于企业数据模型对数据属性创建固定的意义。数据仓库用户直接根据自己部门的需求过滤数据。
今天,在私营和政府部门预测分析的用途不断得到证明,我们必须重新审视企业的传统数据模型。
具体地说,我们应该接受使用模式,预测能力和数据属性的意义可以进化,随着机构在挖掘其数据变得更加成熟,在其领域部署预测模型并反馈性能结果完善模型,同时机构外部的事情也会影响其优先级。重要的区别如何使用数据。
数据管理的区别
数据管理不同于传统的数据仓库。一个监管的数据存储是对数据用户的平台,它不必告诉用户如何使用或解释数据。数据用户使这些数据变得更有价值和有意义,例如,利用统计学习技术预测欺诈、不合规或病毒爆发等新兴趋势。
数据属性的重要性和意义是由多个使用数据的模型的预测能力所决定的,而这些“意义”可以反馈到监管的数据存储,因此它可以成为共享的企业资产。
这一过程使中央权威(又名数据管理员)不必是唯一的仲裁者或监管数据的瓶颈,这非常不同于90年代的传统数据仓库生命周期。
政府可以从这些数据仓库经验和90年代的问题中学习,包括技术所扮演的角色。当时,很难引入新的数据到数据仓库,并让大型数据库在实时分析中表现良好。
尽管今天的技术减少了对数据模型精细调整的需要,我们却不能简单地扔掉数据建模和创建一个数据湖。正如有许多专家指出,数据湖可以迅速变成一个数据沼泽。这就是为什么数据管理是必要和重要的。
从数据仓库过渡到管理还包括用户行为的变化。当监管数据呈现给用户时,对它们的预期会更多,而不仅仅是过滤的罐装报告。
数据管理归结为提供现成的数据。即用户知道数据元素的意思,他们从哪里来的,如何探索和挖掘它们,以及如何形成可行的洞察。让用户有能力和自由即时探索需要在用户和监管数据平台的维护者之间有不同的交往模式。
双方都需要新的技能。IT需要构建专业知识使数据以用户友好的方式获得——是明显不同于交付用户友好的应用程序和网站的专业知识。用户需要获得技能用更现代的方式与数据交互。用户需要比标准“工具培训”更多的学习。IT和用户需要体验现代数据挖掘和数据开采工具结合在一起的威力,在他们机构设置的数据。
这样做会让IT有信心从创造完全规范的独立应用程序转而创建数据平台,而用户反过来会降低他们对昂贵的用例特定应用程序的胃口。
这种业务和IT之间关系的改变是唯一使预测分析变得民主化并帮助使政府更迅速和更有效地应对挑战的方式。
本文转自d1net(转载)