打破数据统一的七大原则

数据统一在数据分析领域里是个长期的挑战,从事数据分析的从业者希望在数据分析之前,来自不同实体的数据能够在同一个地方呈现出来。数据统一由七部分组成:1、获取数据 2、清洗数据 3、转换数据、4、模式集成 5、重复数据删除、6、分类 7、导出

一般而言,企业实现数统一有两种方法,提取转换加载(ETL)和主数据管理(MDM)。

提取转换加载(ETL)具有灵活性的优势,适合不同的数据来源,使程序员可以手工编写转换程序,能够确保源数据模式与集中式数据仓库项目采用的全局模式匹配。但由于自动化程度低,提取转换加载带宽能超过20个数据源没有多少家公司。

主数据管理(MDM),它与ETL类似的地方在于,预设一个“主记录”,每一个有专门的类别选项。如客户、部件和供应商等的所有文件符合主记录格式。但和ETL有所区别的是,MOM不是使用手动的定制脚本,而是依靠一套“模糊合并”规则,把所有不同的文件转换成主格式。

可难解的是,在数据量过大的情况下,不管是ETL还是MDM,都无法解决数据统一难题。加上大数据集的庞大规模以及对程序员的苛刻要求任何的可规模化数据统一项目都必须在很大程度上实现自动化,不能依靠手动编写的程序。

著名计算机科学家、Tamr联合创始人兼首席技术官迈克尔·斯通布雷克(Michael Stonebraker)针对数据统一存在的限制难题,提出数据统一的七条原则。

一、所有的可规模化系统,都必须自动进行绝大多数的操作。

二、模式为先(schema-first)的产品永远无法规模化。唯一的选择是采用‘模式为后’(schema-last)的产品。

三、需要进行具体的域操作时,只有协作性的系统才可实现规模化。

四、为了实现可规模化,任何的统一计算必须在多个核心和多个处理器上运行。

五、尽管存在第四条原则,但真正的可扩展应用需要复杂性低于N ** 2的并行算法。

六、规则系统实现是无法规模化的。只有机器学习系统才能将规模扩展到大公司所需要的程度。

七、必须支持实时增量统一。

本文转自d1net(转载)

时间: 2024-09-13 16:42:22

打破数据统一的七大原则的相关文章

2018年以前,我国将建成国家政府数据统一开放门户

近日,<国家信息化发展战略纲要>由中共中央办公厅.国务院办公厅印发,明确了未来十年中国信息化发展路径,提出完善部门信息共享机制,建立国家治理大数据中心. 2018年以前,我国将建成国家政府数据统一开放门户,推进政府和公共服务部门数据资源统一汇集和集中向社会开放,实现面向社会的政府数据资源一站式开放服务.<国家信息化发展战略纲要>要求将信息化贯穿我国现代化进程始终,加快释放信息化发展的巨大潜能,以信息化驱动现代化,加快建设网络强国.<纲要>是规范和指导未来10年国家信息化

发改委答记者问:中国将于2018年前建成国家政府数据统一开放门户

中国国家发展改革委有关负责人日前表示,2018年以前,中国要建成国家政府数据统一开放门户,推进政府和公共部门数据资源统一汇聚和集中向社会开放. 国务院日前印发<促进大数据发展行动纲要>.发展改革委有关负责人说,中国将加强数据资源的国家统筹管理,优先开放相关领域数据.加快建立政府数据资源目录清单,在摸清政府数据家底的基础上,按照"增量先行"的方式加强对各部门数据的国家统筹管理. 相关答记者问内容文摘一并放在下文展示: 近日,国务院印发<促进大数据发展行动纲要> (

C#面向对象设计的七大原则_C#教程

本文我们要谈的七大原则,即:单一职责,里氏替换,迪米特法则,依赖倒转,接口隔离,合成/聚合原则,开放-封闭 . 1.   开闭原则(Open-Closed Principle, OCP) 定义:软件实体应当对扩展开放,对修改关闭.这句话说得有点专业,更通俗一点讲,也就是:软件系统中包含的各种组件,例如模块(Modules).类(Classes)以及功能(Functions)等等,应该在不修改现有代码的基础上,去扩展新功能.开闭原则中原有"开",是指对于组件功能的扩展是开放的,是允许对其

110余家企业聚集智博会 专家表示智慧城市需以打破数据堡垒为前提

7月29日,由国家发改委城市中心和中国智慧产业联盟共同主办的2016第二届中国智慧城市博览会在北京开幕.中国城市和小城镇改革发展中心原主任李铁在开幕式发言中表示,今年智慧城市的关注度远远超过往年,这既得益于我国城镇化水平的快速提长,同时也得益于互联网的快速发展. 回家路上可以用手机调控家里的电器,具有监测和报警功能的老年人健康智能穿戴,在街边的路灯上为电动车充电,以及"天眼"智能监控--城市,正在变得越来越智慧. 7月29日,由国家发改委城市中心和中国智慧产业联盟共同主办的2016第二

MVC+LINQToSQL的Repository模式之(四)数据统一更新的附加类

namespace public static class DynamicQueryable public static IQueryablethis IQueryablestring params objectreturn IQueryableIQueryablepublic static IQueryable this IQueryable string params objectif nullthrow new ArgumentNullException"source"if nu

英特尔:打破数据中心瓶颈需开放统一存储架构

12月17日消息,英特尔数据中心事业部(DataCenter Group)存储部门总经理Seth Bobroff日前在2009年存储中国峰会表示,数据中心正面临诸多瓶颈,为此,英特尔正试图通过构建开放统一的存储架构. Seth Bobroff表示,构建动态数据中心是趋势所在,但如今的数据中心在存储.网络方面面临性能.成本和扩充性的瓶颈.而要打破存储瓶颈,需要一个开放.统一的存储架构. 据介绍,2009年,英特尔内部已经开始对服务器.存储.网络业务进行整合,原先的服务器平台事业部也升级成了现在的数

大数据发展呈现七大趋势

近几年,我国对大数据发展高度重视.刚刚过去的2015年,国务院明确了关于促进大数据发展的总体战略,国家相关部门积极推进有关工作.2016年,大数据产业整体发展如何走向?以下是总结出的七大趋势. 1 国家战略引领各地加快落实推进大数据行动 我国对大数据发展高度重视.2015年8月,<国务院关于印发促进大数据发展行动纲要的通知>(国发[2015]50号)发布,明确了发展大数据的指导思想.发展目标和发展任务,为未来我国大数据发展与应用指明了方向.2015年10月,<中共中央关于制定国民经济和社

电视平台下的交互设计:四向键交互七大原则

一.划分区块 "四向"键(含确认键)与鼠标不同,它的特点是按照焦点顺序移动.所以当含有大量的内容时,需要划分成一个一个的区块,以便于进行快速定位. 在选中某一区块后,再对具体内容进行操作. 二.十字结构呈现 在很多情况下,需要将内容按照不同的功能进行归类,划分为不同的"功能区块".当功能区块含有大量内容时,使用十字结构能够保证用户在任何情况下都能够快速的在功能区块间切换. 标准十字结构: 变种十字结构: 在只有两个模块(或两级内容)时,可以考虑将标准十字结构变形.与

教你如何把EXCEL表中的数据统一上调20%

早上刚来到办公室,服务部经理郭飞就找到我,说昨天打印的工时需要重新调整,每个单价都上调20%,因为车型种类比较多,打印需要200多页,比较浪费墨.我就问老板知道么,他说这个上调工时是经过老板同意的,既然老板同意,我也就没有任何理由不再重新打印调整好的工时. 由于我的电脑还是2000年买的,无论运行速度等其他方面都是比较慢,就用市场部刚买来的电脑,这样工作效率也许会高点,在设置表格的过程中,市场部的大琳非要问我这个上调20%是如何设置的,她要求把这个设置过程写下来,以便以后忘记了好有个查询的资料应