本文讲的是IBM陈剑:金融行业大数据解决方案实践,当前,行业对于“大数据”的关注疾速攀升,这并不亚于数据本身的增长程度。您是否想过,我们看到的“谈大数据色变”或许只是个表象,走在行业前列的企业早已开始默默挖掘大数据中蕴含的“金矿”,为自己的业务飙升迈出制胜一步。
作为行业引领者,IBM一直走在新趋势的前沿,对于大数据更是全力融合创新技术与行业经验助力客户梳理大数据概念,选择战略方向,制定方案策略,实现行业落地:今年5月,IBM智慧的分析洞察正式发布,为大数据环境下的企业描绘了一幅宏伟的战略蓝图。在此基础上,IBM全面整合内部资源,搭建了融软件、硬件、服务为一体的大数据平台,为企业提供易执行、低成本、高效率的大数据解决方案。在行业方面,IBM为行业企业量身定制的大数据解决方案优势充分凸显,大数据制胜策略已不再纸上谈兵,实践之花也开遍制造、电信、金融等诸多行业。
IBM软件集团大中华区银行业解决方案高级顾问陈剑从金融行业大数据解决方案实践详细了大数据的价值。
陈剑指出其实谈到大数据,最初大家知道Hadoop这样的技术是来自于互联网,大家可以仔细想一想在传统行业里有哪些行业的规模能够跟互联网可以PK的,一个是金融业,因为它的用户数非常大,二是电信业,三是相关的媒体游戏行业,是多媒体的数据。
在金融行业,我下面给大家在进入案例的分享之前,我接着刚才谈论的话题强调一下大数据平台跟我们传统的数据架构,一个企业架构里面的关系。刚才我们谈到大数据平台其实它是对数据仓库,对原有我们的数据库的扩展和增强,而不是一个替代。刚才我们反复提到数据治理,在数据治理的领域,我们希望给大家一个很强的信息,大数据平台它引入以后会对传统的数据仓库是一个很好的补充和增强。特别是像银行、电信业,大家知道最珍贵的价值是什么?是客户数据。大家现在不管是电信运营商还是我们的银行,都是同质竞争非常的严重,各家不管是运营商还是银行也好,他们都不断在抢客户,如何把握客户信息,了解客户的需求,以及甚至预测他们下一步的动向是非常重要的。大家知道传统的银行金融的数据,客户数据都在数据仓库里,随着互联网和其他的一些新型的包括移动应用的增加,我们希望通过非结构化的信息能够来补强原有传统上存在数据仓库里客户的档案和信息。它不但在我这个银行也好,或者在我这个电信公司,他的消费模式,他的投资风格之外,在其他的这些平台上,包括社交媒体,包括在其他的第三方的平台上,他们究竟都在干什么。通过这些新的数据来源,能够很好的增强我们在传统的企业类对客户信息的存储和分析应用。
这张图基本上是刚才谈到大数据的平台,我主要想讲这边,如果大家了解Hadoop这样开源的大数据技术的话,一是存储,提供相对廉价的分布式的存储系统,二是计算,提供类似像MapReduce的技术,能够进行并发的、高效能的计算。大数据引擎基本上完成是存储和计算,但是真正这些存储计算的结果还是要为我们传统的实际的业务系统和其他的应用来使用。我们一定要非常清晰的了解大数据平台和传统的包括统计分析、商业智能、商业报表,包括刚才林总分享的市场营销的解决方案Unika。其实大量的数据在大数据引擎里的计算和存储,它的中间结果是需要被我们真正的业务系统去使用的,这是我希望这一页给大家非常明确的信息。
下面进入关于金融业大数据的分享。大家都知道,对于金融业和银行业来说非常重要的,像IBM对银行业的观点是三点,一是提高我的运营效率,二是降低成本,提高客户的满意度,特别是像银行这样的金融机构,最重要在某种意义上银行是帮你管钱和帮你做投资的,在另外某种意义上来讲,银行经营的是风险业务。后面会讲到信用卡欺诈的案例,如果风险没有处理好,会带来怎么样的对盈利和企业市场的印象会造成多大的负面影响。很快从这三个方面跟大家分享一下,IBM理解的在银行金融业在哪些方面大数据是有用武之地的,这边列了很多都是我们正在跟很多的世界各地用户包括我们本地的银行,像保险公司都在做的事情。像保险公司这样,最重要是前台,我要洞察我的客户,洞察我这个市场的一些情况。社交媒体分析就不详细讲了。另外一个场景也是我们这两年在跟很多金融机构做的相应的项目就是呼叫记录的分析,大家都有热线电话,比如9555这样的热线电话,打进去以后很多机构把相关的电话记录,不管是咨询的还是投诉的电话都记录下来存为文本,以前相应的因为技术的问题,自然语言的理解和大数据的量非常大,是不是能够及时的处理,这是一个领域,对于呼叫中心记录的分析。在此基础之上,刚才我反复谈到客户,通过收集这些信息和分析,我们能够很好的做到客户挽留,如果我从他的投诉记录次数和内容里面,可以知道所谓的情感,说我已经投诉了,你再不解决我就要换到别家了。还可以做到增强客户的细分,去年在国内很大的行做客户细分的工作,大家知道现在很多的银行都在卖理财产品,其实卖理财产品,还包括黄金投资、外汇的交易,如何很好的去给相应的客户推荐这些东西,是要基于以前的交易记录和资金量的分析来做的,这是客户细分。如果做好的客户细分,我们就能做相应产品的推荐,不管是准实时的还是实时的。还有像投资的金融机构对于市场条件的变化是非常敏感的,相应的市场交易分析是很重要的。这是谈到前台。
对于后台来讲,我们金融机构希望节约成本,这也是这两年金融危机以后我们发现一个非常大的趋势。这一块我们总结主要是几个方面,一是刚才谈到的数据仓库和新的大数据平台之间的关系。对于像银行和金融机构来讲,监管是非常严的,银行10多年的交易数据必须是保存在那儿,随时可能因为一些调查会随时调出来。这些数据怎么去存放?历史的数据,10年前的数据存在什么地方,如果监管机构进行调查是不是可以很快拿出来。而且很重要的一点,像一些历史数据,可能数据格式随着时间的发展,数据格式和用的数据库的版本和一些工具是不一样的,怎么进行管理,这是一个非常重要的点,这也是我们跟很多银行在做一些项目的时候非常重要的点。后面两点是跟机器数据有关系,有一些厂商是处理机器数据,像银行这样的系统非常多,比如做一个交易可能发现始终不能完成,系统可能发生故障,怎么去定位,因为对一个用户来讲就是通过网银登陆界面做一个交易,最终做这个交易的系统可能是某一个隐藏在后端很深的系统,当这个客户打电话报这个故障的时候,怎么及时定位到故障的系统采取相应的措施,这是非常重要的一点。这一块基本上是数据本身的管理和一些跟机器产生的数据相关的,如果这些能够很好的做,就能提高相应的成本控制,也能提高客户满意度。
最后一个方面也是比较重要的,可能跟别的一些像零售行业不一样的,就是风险和欺诈。这方面IBM的案例也是非常多的,大家知道可能欺诈的行为是不一样的,IBM在这个领域除了像Hadoop,除了基于大数据的引擎之外,还有专业的反欺诈的工具来进行帮助。举个例子,比如我们有一个产品叫做I2,是做反欺诈调查的,不管是欺诈还是洗钱都是牵扯到非常多的网络,我们的工具能够把大量的数据导入,然后知道汇款人之间的可视化的节点图,我们找到关键的节点,这些人短期内大量的进行小额的转款,我们很容易发现这样欺诈的行为,这是一种反欺诈的案例。
再跟大家分享一个,我们有一个解决方案,大家知道SPSS统计分析的工具,我们SPSS有一个增强的功能,大家知道网上造假非常多,不管是钓鱼也好,或者编造一些身份来造假,比如骗取信用卡的套现,在国外,信用卡的号一旦被套取,就可以在一些网站上自由的去消费,我们的SPSS工具,你做这些交易的时候难免会露蛛丝马迹,比如你在某些地方用的是一个E-mail号,可能你的名字用的是张三,但另外一个地方用的是李四,因为你要注册,有时候难免会留下同样的电子邮件,我们从大数据和刚才提到不管是Hadoop还是Streams,进到风险模型里就把这些东西积累起来,第一次看到张三的人做了交易,当时登录的E-mail的地址是Gmail的地址。第二天上来一个叫李四的,但可能是另外一个帐号,但地址信息可能是另外一个省的某个人,但E-mail地址恰巧又是Gmail的地址,这时候很容易关联起来。相应的这些统计分析工具是在大数据的基础之上,真正为我们的金融机构带来业务价值的地方,这一点是希望给大家一个认知。
后面我通过两个实际的案例给大家介绍一下目前在金融行业做的一些事情。刚才谈到大数据分为不管是3个还是4个,Hadoop流和数据仓库,我们主要是关注Hadoop这边。这是美国的Visa的反欺诈,美国大概每一百美元的信用卡交易其中有七个美分是虚假的,可能是信用卡被盗刷,如果这个解决不好的话,每年有数十亿美元的损失,有些可能是用户自己去负责,有些是信用卡公司给解决。反欺诈的手法和欺诈的模式是经常变化的,对于这种信用卡公司来讲,他们如何去及时的发现和对一些事后调查,能够很好的找出来,最重要的就是反欺诈的模型,要建一个统计模型,这是非常重要的。但是对于像这个信用卡客户这样的机构,以前的交易量非常大,要做相应的模型优化,成本是非常高的,大家可以看一下这个时间,传统上这种进行一次模型的重新算一遍,因为量非常大,要一个月才能做到,采用基于IBM的BigInsights Hadoop的方案以后,它做了一个测试,两年的交易记录是730亿笔的交易,量是36TB的数据,调进去可以做到两小时就把相应的模型重新的建立一遍。刚才我们提到所谓的存量数据会对它进行一个分析。我们把详细的交易数据放到分布式的集群里面进行相应的转化统计,然后去优化相应的模型。未来这个模型就可以用到实时的一些反欺诈的应用里,真正的应用系统怎么来使用我们的平台。交易类的系统会相应的调取分析平台的结果,通过相应的模式进行一个判断,可能在申请新的信用卡或者某一笔授权交易的时候通过这个模型来判断是不是发给他新的卡,或者这笔交易是不是要拒绝。这是一个例子。
补充一下我们在多伦多的证券交易所的案例,它是对证券交易的欺诈监控系统,其实是跟这个类似的。对于证券交易来说,有一些行为和操作方式是不被允许的,传统的都是事后去监督,做一些老鼠仓这样的行为,其实是比较难监督的。有了大数据的快速分析以后,我们可以实时的去匹配一些交易的行为的模型,实时的进行一些监控,不一定当时把它的交易马上停止,可以很方便的把这些信息可能的欺诈行为转给我们的监管部门。
我们在美国大型的零售银行做的一个案例,这一块是刚才介绍到的所谓机器数据。因为对一个银行来讲,国外提供存款取款以及支票服务、贷款服务和其他的投资服务,现在绝大多数的交易都可以在网上做,用户在做的过程当中很可能会遇到,他反馈回来的结果有一些结果有异议,有一些后台系统会失效。遇到这种情况,客户会打电话到客服,我们网银也会遇到过,某些时候页面出不来,当你打电话到800的时候,相应的客服人员不太可能实时的知道这个问题。对这家银行来讲,以前需要24小时的时间间隔才能去反馈知道究竟是什么问题。这样对客户的满意度是一个比较大的问题,他们希望找到一个办法能够很快的解决这个问题。基本上的做法是这样的,对银行来讲它的系统是非常多,带来的问题是日志孤岛,这个系统跟那个系统交易是有先后顺序的,很多时候很难关联起来,而且是在不同的平台和不同的系统,格式也不一样,怎么才能知道这一笔交易牵扯到从存款账户转了多少钱到基金账户,这是两个系统,格式也不一样。相应的带来还需要去定制相应的应用程序可能要更改流程。这一块的解决方案是什么?我们利用现在大数据的能力把分布在各个地方的原始数据和原始的日志定时每隔一分钟进行收集和抽取,放到分布式文件系统里,我们通过研究院的解决方案,很快的能够建立起一些索引,这样能提供一个很方便的前端,让它能够实时的查询。做了这个系统以后,达到一个效果,一旦有客户打电话投诉的时候,我可以很快的通过一个最简单的Web的门户,对所有的相关系统的日志有一个检索和生成相应的报表。这是另外一个未来我们在机器数据里怎么很好的利用大数据解决以前比较困难的应用场景。
作者: 李伟
来源: IT168
原文标题:IBM陈剑:金融行业大数据解决方案实践