农行赵维平:农业银行自主可控的大数据平台建设

4月27日,中国大数据峰会上,农总行赵处的讲演,引得台下掌声雷动。“大数据建设只有起点,没有终点,我们一直在路上。在国产化的道路上,希望民族工业无比强大,在国际市场上挺起腰杆!”

500-333文章照片-大数据推动金融创新- 赵维平

中国农业银行软件开发中心的专家赵维平

农总行赵处的讲演的数据着实令国人振奋!农业银行以国产数据库GBase 8a为基础的国内最大的金融大数据平台采用混搭融合架构、双活数据仓库、超大规模数据库集群这些先进技术全部应用其中。56是生产环境,现在实现了56环境的双活!5.2PB数据量、236个节点、每天6000多个复杂的分析任务! 这一系列指标令人咋舌。

这是真正的世界级的银行大数据平台,在容量、性能、架构设计、关键技术等方面都当之无愧。其中令人激动的是,中国真的有软件厂商做到了“世界级”!GBASE真正做到了让中国用上世界级国产数据库!结束了在核心应用领域没有国产数据库可替代的时代!

GBASE 2013-2014连续两年在IDC年度研究报告和赛迪顾问发布的《中国平台软件市场研究年度报告》中被评为“国产数据库第一品牌”。 从2014年起,南大通用开始与IBM旗下的Informix美国研发团队开展合作,并引进了Informix源代码。在Informix源代码的基础上,南大通用结合自身的创新和核心技术推出GBase 8t等三款国内领先、国际同步的世界级自主可控数据库产品,取得了极佳的反响,已经在政府、金融、电信、国防等多个行业关键领域替代国外软件。

GBASE打造了国内唯一支持PB级双活的MPP集群,唯一支持数据透明加密的MPP数据库!农行借助GBase 8a搭建的金融业PB级大数据平台的可行性方案打破了国外基础软件在我国的垄断,在保证国家信息安全方面进行了有益探索,同时也节约了大数据平台建设成本。

以下是赵维平演讲实录:

赵维平:首先感谢主办方能选择这么时尚的话题,同时也感谢主办方能在一上午的时间把工农中建都搞到一起来,分享大数据的话题,大数据建设和运用,各金融领域有共性,只是大家在实现模式上略有差异而已,大家对业务的支撑有很多是共性的。我今天跟大家分享的是农业银行在自主可控上做的一点工作,大家再走这条路的时候能有所借鉴,少走弯路,为你们的顺利实施提供一点点可借鉴的东西,那我今天就没有白讲。

金融大数据的应用场景,工行和建行都讲过,随着互联网+时代的到来,这些年数据的膨胀呈指数增长,分两类,一类是结构化数据,这部分增长基本可控,随着业务的增长是一个线性关系。而对非结构化数据,尤其语音、图像,优酷上的视频,一天产生的视频可能一辈子都看不完。现在应用潜力巨大,精准营销、风险控制、运营等等都对各业务,对大数据的应用提出更高的要求。深层次讲,现在随着大数据时代到来,我们处理大数据的技术手段和成本的下降都提供了对大数据的可能,不管是MPP还是Hadoop都是最近几年来风起云涌的,在技术上也是成长最快的一部分。应用的领域,大家基本相似,不细说了。

我们在2003年初开始搞大数据,当时有很多困惑,首先感觉到大数据到来了,现在各个行业,中央台什么东西都用大数据说话,我们在银行业我们能做什么呢?早期在十几年前我们大家做数据仓库的时候,大家可能选择面都很窄,四大行除了我们没用TD其他都是用TD做的数据仓库。我们当时用SbaseIQ(音)也很痛苦,计算资源可以扩,但IO能力就在那里。当时觉得列存储带来很大的优势,处理通用的数据量减少了很多IO。平台选用什么?还用传统的吗?新型的怎么样?金融在有些技术的选择上还是相对比较保守的,我们不会用最新的技术,不会用最新的版本,这也因为金融工委和国家人民银行对于我们的连续服务要求特别高,一旦出了事情领导交不了差。大数据在哪些领域能优先创造价值?你做了那么多大数据,领导说你能给我带来什么,不管你用什么技术积攒了多少数据,采用什么样的管控机制保证数据安全,另外又用什么运维保证机制保证业务的连续性。

农业银行对大数据的预言2003年就开始了,2004年的行长会上就明确了农业银行的大数据建设。我们在建设过程中,这20字就是我们工作的出发点,夯实基础、拓展服务、提升应用、深入挖掘、推动治理。目标是促进全行的业务创新、管理创新、营销创新和服务创新。我们实施的路径基本就是统筹规划、顶层设计、共享复用、分步实施。

自主可控方面,我们从几方面,硬件方面采用华为的RH2288系列,2C、docore、256内存、12 4T硬盘,不同时期买的硬盘的容量是不一样的,后来是4T,之前是3T。基础软件方面我们引进了国产的南大通用做的MPP架构数据库,我们在原形试运行阶段从2013年圆形环境开始投产,采用28个数据节点,2014年3月份把它扩到56个节点。非结构化,结构化的数据上游生产数据基本都是放在MPV架构数据库里,使用起来技术上更流畅,效率更好。Hadoop方面,非结构方面目前使用的是CDH开源版,大概有100个左右的Datanode。数据模型方面我们结合先进的建模理论,我们融合了范式和维度的思路。我们在主库核心层面基本是范式建模减少重复。维度方面由业务驱动的方式建立维度模型为主。自主可控在基础的工具上,大家知道有ETL、批量调度、源数据的管理,这些东西都是我们自主开发的。我们制定了一套比较完备的规范、制度、方法、标准。

这是我们整体的逻辑架构图,左侧是数据源层,上游的生产系统,几乎全行所有的生产系统的数据到今年底已经全部进来了,金融交易类百分之百都进来了,现在有60多个上游系统,通过一个交换平台,交换平台不仅仅为大数据服务,负责上游生产和下游数据消费系统总分行之间、总行各应用系统间数据交互的平台。第二,数据处理层,淡黄色指关系型的数据库,也就是MPP架构数据库。操作数据区、非结构化数据区、历史数据平台、流计算,流计算用Hadoop Stam架构。下面是Hadoop的东西。我们在整个大数据平台的结构化主库里分了基础数据库、共性加工区和指标区,非结构化有操作数据区、非结构化处理和历史数据平台。影像那部分早期已经建好了,为了减少网络压力基本上存在分行。

跟传统不一样的是大数据平台的日加工时间目前在七八个小时,早期批量一个是优化不到位,一个是处理的分层,所以用了Hadoop把ETL和操作数据区都放在Hadoop里,因为可以节点多、计算能力强,完成了ET的过程,上游来的全量数据在这里做了归类,生成了一个纯层量的数据,减少了一天的批量时间几个小时,提升33%的性能。数据集市层,现在规划8个数据集市,跟其他行没有太多区别,客户营销、风险管控、外部监管,对分行服务的集市,各行服务的对象都是一样的。底下研了数据提取平台,外部监管和数据提取任务特别重,早期都得到生产去导带生成,现在我们通过单独建一个环境,把一些数据预加工好,基本以宽表的模式,以前做加法的事情变成了做减法,至少80%的提出需求都在我的环境里直接提取,大大减轻了人力。底下是分析挖掘平台,ODM、SaaS都是农行已有的云,大数据只是它的用户而已,我们在Hadoop分装了应用,为全行的分期挖掘提供服务支撑。

对上层应用的服务有直接访问,数据文件和外部服务和数据快速复制等技术和应用进行连接。应用主要是对资产负债领域、电子银行领域、信用卡和个人金融领域、风险和财务提供了一些支撑,大数据平台和集市,我们建成了4个集市,有3个集市在建的过程中,今年分行下半年要搞分行集市的试点。应用,我们提供统一的数据展示和服务。展示服务一个是对所有全行业的用户,对所有行业监管的各种报送,因为各种报送比较零乱,点也比较多,趋向不同部署也不一样,底层做了统一调度、统一监控和ETL,对全行描述类数据进行了统一管理,包括我们的数据标准和数据质量管理都在这里统一进行。

这是硬件的环境,在Gbase而方面,56是生产环境,现在实现了56环境的双活,这两个56环境同时在工作,一个做T+1当天的数据加工,一个做隔一天的连级服务,这样的话连级服务的能力,按实侧的话会比以前做TD的测试中更强一点,另外个人客户集市、资产负债集市,还做了数据挖掘层次,Gbase集成了WODM和SaaS。Hadoop的生产环境是92个datanode和2个namenode。我们现在Gbase有236个节点,库内主副本的整个容量有5.2PB数据,Hadoop的集群是150个节点,容量是4.3PB。

56+8是56个数据计算环境,8个是加载机,56个环境每个节点是12块3T的硬盘,有2块做Read1,是存放操作系统和重要的参数信息和数据库环境,其他10个环境是Read5来存放数据,一个节点存放有效数据10几个T,56的环境里有效数据将近300个T,Gbase有5到10的压缩比,各个字段可以选择压缩去,300个TB的数据换算成仓外的文本量,就算简单乘以300T也是1.5PB以上,现在折算成1.8PB左右,是PB级的。我们跟Gbase从这个时候开始合作,我们在八方面跟他们共同做了一些优化工作,跟Gbase做了大量优化,有近百个优化的细项。MPP数据库,我们搭建了双活机制,两个库之间的同步加验证现在每天大概是22TB的数据,仅需要3小时。早期在给主库做备份的时候,100TB的数据有小40个小时,后来我们用了Hadoop做备份,100TB用了不到10小时,大家用TB备份一直是比较难的事情,在Hadoop方面我们做了大量基础性的工作,非结构化的数据、文件的服务、数据的备份等等。

我们做了MPP和Hadoop的交互,有些应用要交互,我们做了非结构化MPP和HDFS之间的融合。后来启用了MPP和Hadoop之间的备份,大大提高了效率,300T也需要将近20个小时,所以我们做了双活,如果双活稳定的话我们就不用备份数据了。开发的基础工具包括ETL工具、批量调度、整个的监控和统一访问层,监控这块我们还做了健康检查,通过SaaS把半年的日志交过去,最后生成一些模型,给我预测整个系统运行的安全状况。数据混搭的模型设计,我们有一套完整的方法论,能保证数据的准确、稳定、完整和可用。同时我们在方法论、开发规范、数据规范和流程规范都积攒了一系列文档。整个模型是分层的,操作数据区、基础数据区、共性加工区、指标层和集市层,完成了客户的统一试图、产品的统一管理和客户的精准营销和风险管控等等。

通过6个方面对大数据平台的数据进行了全生命周期的管理,包括建模、验证、清理、准入、数据地图和一些规范。我们的数据量比较大,早期上游应用比较多,数据质量比较差,在这里我们通过源数据管理,通过平台建设标准的制定和现有数据的治理及制度规范,通过四方面提升数据质量。我们建立了自己的源数据管理,我们对技术源数据、业务源数据和管理源数据进行了统一的管理,同时我们也建立了技术源数据和业务源数据之间的血缘关系,这样就能通过业务的视角能知道从技术怎么到业务。自己建的系统,目前大数据支持的应用,像互联网金融、资产负债、外部监管、运营分析、客户关系等等,有一些我们正在建设过程中。

应用的现状,我不一一介绍了,我们在不同的领域里支持了不同的应用。我们在大数据的建设中为了体现数据的价值,我们在分析挖掘方面做了很多工作,一个是平台建设方面投入很大力量,我们跟业务融合,分别在多个领域写出了20多份分析报告,有精准营销和业绩价值等九个方面都落到不同的应用去尝试实现。我们培养的人才,对SaaS、Spack、R语言,熟悉这些算法,对聚类、分类、回归、神经网络等等进行了研究,另外建立一套多场景的实验环境,流水线式的作业、组建化的模型集脱拉拽式的服务,使业务人员能更快地使用我的系统。多个技术对用户来讲是透明的,用户要使用的话非常方便。我们展示了非常完整的服务,对基础环境融合,对资源的管理展现进行全覆盖,部署的模式也是收放自如的,展现也突破了传统的思维,我们在报表展示层面是可交付的、动态的,可以放大缩小,可以按某一列去排序,可以锁定表头,不是一个静态的页面,报表是可操作的。

通过这部分报表的操作,我认为分析应用,一个是数据的可视化,再一个是逻辑的节点的快速开发,实现对分析型应用的快速开发部署。我们有了基础的东西,还有一套规章制度去管理,总体的管理办法、数据准入规则、运维的细则、数据模型规则,真正做到了大数据的生态圈。在自主可控上,基础硬件、基础软件、数据模型、工具平台和制度管理都是自主可控的。

我谈一下感悟,大数据到底是什么,它是一种技术,是一个平台,还是一个生态圈?我们在大数据生态里共享、复用和包容是永恒的主题。大数据是一种潮流,是一种意识,是一种习惯。大数据也是一场思维的变革,掌握了大数据,人们从此就有了预知未来的能力。大数据与农业银行监行监近,大数据建设只有起点,没有终点,我们一直在路上。在国产化的道路上,希望民族工业无比强大,在国际市场上挺起腰杆,谢谢大家!
原文发布时间为:2016年04月29日

时间: 2024-08-01 16:52:28

农行赵维平:农业银行自主可控的大数据平台建设的相关文章

集团型企业大数据平台建设的演进路径

随着大数据等技术的成熟,信息化建设的重心将逐步从IT(信息技术)向DT(数据技术)转化,从以流程为中心向以数据中心转化,未来信息化建设的重心将是如何对组织内外部的数据进行深入.多维.实时的挖掘和分析,以满足决策层的需求,推动信息化向更高层面进化.大数据应用(BDA)是集团型企业应用的新方向,大数据应用架构也成为新一代集团型企业应用架构的核心,其一般由业务架构.数据架构和技术架构组成. 业务是大数据应用的目的.大数据目的是"针对正确的人,在正确的时间,获得正确的信息",其本质为服务于业务

首都科技大数据平台建设将启动

首都科技大数据平台建设方案昨天开始征集,政府部门将携手企业,建设一系列大数据共享共用平台,在推动科技产业发展的同时,也用于破解空气污染.水环境治理.交通拥堵等城市发展难题. 此次征集活动由市科委组织,京东.百度.用友.亿赞普等互联网龙头企业及长风联盟.市科技金融促进会等大数据领域相关联盟.协会代表共同发起."目前,在世界上一些发达国家,从星巴克咖啡到总统选举,都需要应用大数据分析."北京大数据研究院院长周海荣说,"大数据不仅是一项技术,也是一种国家战略." 用友软件

广安市智慧城市与大数据平台建设成效显著

11月7日,记者从广安市经信委获悉,广安市智慧城市与大数据平台建设成效显著:今年1-9月,全市智慧城市与大数据平台建设完成固定资产投资10亿元,超额完成全年目标任务.其中,新建(含改建)4G通信基站1600座,超出全年目标任务14%:建成了岳池川渝医药智慧园区示范点1个,新引进项目2个,均已提前完成全年目标任务. 今年前三季度,全市共完成通信建设投资6亿元,由中国电信广安分公司新建宽带乡村314个:4G网络已基本覆盖所有区市县主城区.重要乡镇.学校和部分旅游景区:全市行政村通宽带2157个,通达

重庆电力启动“大数据”平台建设

4月20日,从国网重庆信通公司传来消息,重庆电力"大数据"平台于近日正式启动建设.按照国家电网2016年工作要求,推动电网"十三五"信息化规划发展,该公司建设 "大数据中心",提升电网信息化应用水平. "大数据"平台是电网SG-ERP3.0的核心支撑基础平台.该平台利用大数据的分布式存储技术,整合优化重构非结构化数据中心.公共数据组件和智能分析决策平台,搭建低成本.高扩展性的数据存储平台,支撑海量电力数据实时监测.分析.决策.

国家教育部牵手曙光公司——“百校工程”助力教育行业大数据平台建设

5月14~15日,以"向互联网+与智能制造进军"为主题的第三届产教融合发展战略国际论坛在河南省驻马店市召开,教育部副部长朱之文.河南省副省长徐济超.教育部学校规划建设发展中心主任陈锋等出席了本届论坛. 会上,教育部与曙光信息产业股份有限公司签署了教育部产教融合项目合作协议,联合推出"数据中国-产教融合促进计划".此外,曙光公司副总裁沙超群还在论坛上发表了"数据中国建设方略与数据产业兴起"的主题演讲.  (曙光公司副总裁沙超群发表"数据中

建设大数据平台,从“治理”数据谈起

本文是大数据杂谈 6 月 15 日分享内容整理. 一.大数据时代还需要数据治理吗? 数据平台发展过程中随处可见的数据问题 大数据不是凭空而来,1981 年第一个数据仓库诞生,到现在已经有了近 40 年的历史,相对数据仓库来说我还是个年轻人.而国内企业数据平台的建设大概从 90 年代末就开始了,从第一代架构出现到现在已经经历了近 20 年的时间. 在这 20 年的时间里,国内数据平台实施者可以说是受尽折磨,数据项目一直不受待见,是出了名的脏活累活. 可以说,忽视数据治理给数据平台建设带来了不少问题

大数据平台安全建设方案分享

随着国家提出大数据促进经济社会转型发展的战略思路,大数据平台建设目前已经是政务信息化建设中的焦点内容,各省级政府依托强大的信息化体系率先做出尝试.大数据平台业务系统搭建之初,作为整个平台稳定.持续运行的基础,安全建设方案会是整个平台项目中重要的一环. 大数据平台整体安全建设,从数据采集到数据资产的梳理,再到平台的访问安全管控和数据存储安全,以及数据共享分发过程中的版权保护,整个安全方案如何形成数据访问和使用过程的闭环,并且能够实现安全策略的统一下发和协同配合,是摆在平台建设方面前的棘手问题,本文

科学构建大数据平台助力体育健身事业

健康是人类生存.国家和社会发展的最基本条件.而处于生长发育和性格形成重要时期的青少年,其健康水平不仅关系到个人成长和幸福生活,而且关系到整个民族的健康素质,关系到我国人才培养的质量. 然而,令人担忧的是,1985至2005年的<中国学生体质与健康调研>结果显示,在这20年中,我国7至18岁儿童.青少年肥胖和超重的检出率不断增加,而其他体质健康指标如速度.力量和耐力存在明显的下降趋势. 为了应对这一现状,国家出台了一系列指导性文件.但是在具体的实施过程中,往往只关注儿童.青少年的体质结果,而对影

滴滴与广州市公安局达成战略合作 共建广州智慧交通大数据平台

CNET科技资讯网 12月13日 北京消息:12月13日,广州市公安局宣布与滴滴出行建立战略合作伙伴关系.双方将依托滴滴大数据平台,共同推动广州"智慧交通"大数据平台建设,丰富完善广州"智慧交通"应用服务生态体系,共同推进广州智慧出行的服务与管理.  根据战略合作协议的内容,双方将本着"优势互补.合作共赢"的原则,在改善互联网产业发展环境.创新互联网警务模式.提升社会治安防控水平等方面开展紧密合作.其中,依托滴滴丰富的数据基础.成熟的云计算能力以