Hadoop 平台在金融银行业的应用架构

  Hadoop 平台在金融银行业的应用架构

  薛强彦

  一、金融银行业现状

  随着我国金融银行业的发展和网络通信基础设施水平的提高,金融银行业信息化已经逐渐普及,但是随着互联网技术和应用的飞速发展,许多新兴的支付方式不断涌现,金融银行业的数据信息量也在快速增长,相关业务数据量急剧上升,金融银行业即将进入大数据时代。

  由于关系型数据库先天性不足,巨大的数据量会对传统的关系型数据库模式带来巨大的压力。因此,目前金融银行业采取的普遍应对策略是:1.增加核心系统的机器性能和存储空间,提高业务数据处理能力;2.备份历史数据,减少核心系统的数据存储量,减轻核心系统的压力,从而提高业务数据处理能力。但是采取以上的策略会导致以下不足:1.增加机器性能和存储空间,直接加大了核心系统运营维护成本;2.大量数据离线存储,导致客户无法快速获得交易信息,降低客户满意度,导致客户流失;3.由于大量数据离线存储,银行企业无法分析全量业务数据,无法正确把握银行业发展方向,从而不利于银行企业竞争和快速发展。

  二、Hadoop技术的发展现状

  Hadoop 平台架构是对传统架构的颠覆和革新,它可以实现低成本的海量数据存储,完全支持分布式计算,支持高级数据挖掘算法模型,将大数据的挖掘应用推到了一个新的高度。

  Hadoop 技术目前已经在互联网行业和电子商务行业得到了广泛的应用,它可以实现海量数据的低成本存储、数据的高效计算和数据分析。目前,阿里巴巴集团采用 Hadoop 技术实现了淘宝商品数据存储和交易数据动态分析,已经为他们带来了巨大的利润。采用基于Hadoop 技术在应对大数据时代的优势十分明显,越来越多的企业会采用这种技术解决他们面临的大数据问题。

  三、Hadoop技术在金融银行业的应用架构

  基于Hadoop 技术的特点,可以用它来存储银行业的离线数据,并开发相应的算法对这些数据进行挖掘分析,提高银行企业对历史数据的利用价值。

  目前,银行企业的业务基本逻辑架构由外围系统、前置业务系统和核心业务系统组成,如下图所示。

  外围系统:负责直接与客户进行交互,提供业务服务,所有与银行业务相关的系统,均可以归为外围系统。

  前置业务系统:业务交易数据的跳转,它负责接收来自外围系统的交易数据,然后根据交易码的不同,转送不同的核心系统进行处理,同时把从核心系统返回的处理结果返回到外围系统。

  核心业务系统:负责处理所有交易业务的具体实现。

  银行企业使用Hadoop 平台技术的基本思路是:保持原来系统架构不变;在核心系统层,增加Hadoop 平台系统,实现核心系统的历史数据存储备份;对外提供数据查询功能;还可以根据数据存储特点,提供数据挖掘处理功能。

  增加Hadoop 平台系统后,银行业务基本逻辑架构如下图所示。

  外围系统:不发生不化。

  前置业务系统:根据不同的业务代码,将外围系统的某些查询业务转送到Hadoop 平台系统中进行处理,然后将处理结果返回到外围系统。核心业务系统:定时备份需要的核心数据到Hadoop 平台系统中,以实现某些查询业务需求。

  Hadoop 平台系统:根据业务需求,利用从核心系统导入的历史数据,对业务交易进行处理,并将处理结果,通过前置业务系统,返回到外围系统,也可以将处理结果返回到核心系统的数据仓库,以供某些报表功能展示需要。

  Hadoop 平台系统为了满足金融领域服务需求,系统内部架构采用MVC 的模式进行设计。首先系统上层,通过接口模块和展示模块,从外部系统获取资源,然后将处理后的结果通过展示模块进行展示。系统中间处理层,会针对不同的业务需求提供不同的业务处理功能模块,对数据进行加工处理和数据算法挖掘,以便生成满足需求的各种数据。系统底层,利用Hadoop 平台系统,进行数据大规模存储,提供HBase 数据库,进行非结构化的数据存储。

  通常采用的功能模块结构如下图所示。

  每个功能模块的具体说明如下。

  源数据模块

  主要功能是为系统提供加工处理的源数据。在金融银行业中,这些源数据是他们的核心业务数据。

  接口模块

  主要功能是针对不同的数据源和数据格式,提供对应的数据导入处理方法。

  功能应用模块

  主要功能是根据业务处理需要和系统运行需要提供对应的功能处理模块,功能应用模块中包含数据挖掘算法、业务处理流程等。

  数据模块

  主要功能是提供HBase 数据库,对非结构化数据进行统一存放管理,提供HDFS 文件系统,提供数据多副本备份存储管理。

  展示模块

  对处理后的结果进行Web 页面展示,同时还要根据原有系统的需求,提供不同的数据展示处理方式。

  金融银行业对数据存储安全要求非常高,因此系统必须设计异地容灾备份存储。应将Hadoop 平台系统软件在不同的机房集群中进行部署,系统采用主备集群的模式进行部署,通常采用的物理部署结构如下图所示。

  四、Hadoop技术的架构优势

  将上述架构方案引进金融银行业中,将充分利用以下优势。

  1.充分利用Hadoop 平台技术的存储优势。Hadoop 平台可以提供PB 级的数据存储,可以把银行业务产生的所有业务数据都存储到Hadoop 平台系统中,实现海量数据存储。

  2.充分利用Hadoop 平台技术海量数据快速搜索功能。百万亿条记录,毫秒级搜索结果,可以为用户实时提供任何交易时间的交易数据,提高了客户的满意度,实现了以客户为中心,提高了银行的竞争力。

  3.充分利用了Hadoop 平台技术的数据挖掘功能。可以根据业务需求,编写数据挖掘算法,利用交易数据,快速定位企业非法洗钱的交易记录,为监管帮忙,提供了有力的技术支撑。

  4.利用Hadoop 平台系统,承担了核心系统某些消耗性交易(例如:账号历史数据打印查询功能的交易),让核心系统更好地处理实时交易业务,充分发挥传统数据库的优势,做到优势互补,从而保证金融银行业IT信息系统的持续健康发展。

  目前,天云大数据公司,已经将上述架构解决方案成功应用到某银行的历史数据查询系统中,实现了该银行所有账号的交易历史记录毫秒级响应查询结果。因此,Hadoop 平台技术必将对金融银行业应对大数据时代的到来提供强有力的技术保证。

  作者介绍:薛强彦,计算机专业硕士,长期从事存储软件、大数据相关技术的开发工作,有多个电信运营商、金融行业的大数据解决方案架构师经验及项目管理经验。目前在云基地——天云大数据担任项目经理及架构师。

时间: 2024-08-24 20:19:49

Hadoop 平台在金融银行业的应用架构的相关文章

优酷数据架构师:搭建Hadoop平台三步走

文章讲的是优酷数据架构师:搭建Hadoop平台三步走,2013年11月22-23日,作为国内唯一专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)将于北京福朋喜来登集团酒店隆重举行.届时,来自国内外各行业领域的近千名CIO.CTO.架构师.IT经理.咨询顾问.工程师.Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举. ▲点击进入Haoop中国技术峰会 Haoop中国技术峰会由

如何挑选合适的大数据或Hadoop平台?

文章讲的是如何挑选合适的大数据或Hadoop平台,今年,大数据在很多公司都成为相关话题.虽然没有一个标准的定义来解释何为 "大数据",但在处理大数据上,Hadoop已经成为事实上的标准.IBM.Oracle.SAP.甚至Microsoft等几乎所有的大型软件提供商都采用了Hadoop.然而,当你已经决定要使用Hadoop来处理大数据时,首先碰到的问题就是如何开始以及选择哪一种产品.你有多种选择来安装Hadoop的一个版本并实现大数据处理.本文讨论了不同的选择,并推荐了每种选择的适用场合

高可用Hadoop平台-Ganglia安装部署

1.概述 最近,有朋友私密我,Hadoop有什么好的监控工具,其实,Hadoop的监控工具还是蛮多的.今天给大家分享一个老牌监控工具 Ganglia,这个在企业用的也算是比较多的,Hadoop对它的兼容也很好,不过就是监控界面就不是很美观.下次给大家介绍另一款工具--Hue,这 个界面官方称为Hadoop UI,界面美观,功能也比较丰富.今天,在这里主要给大家介绍Ganglia这款监控工具,介绍的内容主要包含如下: Ganglia背景 Ganglia安装部署.配置 Hadoop集群配置Gangl

高可用Hadoop平台-Flume NG实战图解篇

1.概述 今天补充一篇关于Flume的博客,前面在讲解高可用的Hadoop平台的时候遗漏了这篇,本篇博客为大家讲述以下内容: Flume NG简述 单点Flume NG搭建.运行 高可用Flume NG搭建 Failover测试 截图预览 下面开始今天的博客介绍. 2.Flume NG简述 Flume NG是一个分布式,高可用,可靠的系统,它能将不同的海量数据收集,移动并存储到一个数据存储系统中.轻量,配置简单,适用于各种日志收集,并支持Failover和负载均衡.并且它拥有非常丰富的组件.Fl

马云重构阿里巴巴:平台、金融、数据

中介交易 SEO诊断 淘宝客 云主机 技术大厅 <财经>记者 宋玮 阿里巴巴正在进行一场以重塑公司生态系统为核心诉求的大变革,它很可能先是分拆成约30家公司,然后再整合为三家上市公司.这场由马云一手发动的变革不仅将改变中国互联网行业的格局,还深入影响从制造业到服务业的多个传统行业的未来 在过去的一年多里,马云和他的阿里巴巴集团经历了淘宝一分为三.B2B公司退市.回购雅虎20%股权等诸多大事,这个中国电子商务的探路者试图通过一系列的变革来稳定发展势头. 但是当今年7月,马云终于可以宣布"

小文本语料库在Hadoop平台上的存储策略研究

小文本语料库在Hadoop平台上的存储策略研究 华中师范大学 郑丽洁 为了解决小文本语料库在Hadoop平台存储中,出现上述分布式存储与检索速度间的矛盾问题,本文提出了一种新的HSCS(Hadoop Smalltexts Corpus Storage)存储策略.该策略首先使用小文本合并技术在HDFS架构中添加一层Merge_Client,将多个小文本文件合并为目录结构式的大文本文件,有效减少了内存压力和访问DataNode的次数:然后采用小文件检索技术,给合并后的大文本文件添加一个二级索引结构及

基于Hadoop平台的视觉数据聚类研究与实现

基于Hadoop平台的视觉数据聚类研究与实现 西安电子科技大学 李林 Hadoop是解决大数据存储和分析问题的分布式模型.聚类算法能通过聚类生成码书,对视觉数据进行特征表达.如何将聚类算法架构在分布式模型上完成对大规模数据的聚类是科研和生产中的重要问题.针对大规模视觉数据聚类问题,本文设计并实现了基于Hadoop模型的视觉数据聚类算法,提高了视觉数据聚类的效率. 本文首先介绍了视觉特征,分析了在视觉信息聚类生成码书过程中存在的维数灾难问题.然后,本文详细分析Hadoop分布式模型,设计并实现了基

以更加智慧的方式整合至Hadoop平台

如果您认为 Hadoop 百分百准备好作为您的"单一版本事实"综合存储库,那么请三思而后行. 诚然,Hadoop 现已迅速发展成为大部分企业http://www.aliyun.com/zixun/aggregation/14294.html">的大数据战略核心组件.但它还不够成熟,无法完全取代企业数据仓库 (EDW).由于 Hadoop 的所有优势均集中作为非结构化数据集成层,因而绝大多数 Hadoop 环境缺乏强劲的安全性.可用性和治理性,而这些恰好是成熟 EDW 的

雅虎宣布分拆Hadoop平台业务 与风投建新公司

北京时间6月29日消息,据国外媒体报道,雅虎和硅谷风险投资公司Benchmark Capital周二联合宣布,他们将联合成立一家名为Hortonworks的新公司,接管被广泛应用的数据分析软件Hadoop的开发工作. 据悉,新成立的公司将雇佣大约25名至30名专门研究Hadoop的雅虎工程师,上述工程师均在2005年开始协助雅虎开发Hadoop.雅虎工程副总裁.雅虎Hadoop开发团队负责人埃里克·巴尔德施维勒(Eric Baldeschwieler)将有望出任Hortonworks的首席执行官