从非结构化数据中发现问题 富国银行的风险分析之道

9月初,美国消费者金融保护局称美国富国银行(Wells Fargo)员工在未告知客户的情况下,自2011年起私自建立近两百万个虚假银行账户,富国银行被要求支付1.9亿美金高额的罚款。

9月中旬我也在大洋彼岸见到了美国富国银行企业模型风险部副总裁刘维政(Richard Liu),第二次见面没有客气,一上来我就提出了“幽灵账户”和风险管控的问题。虽然刘维政最近正热衷于研究和学习太极,但他却并没有和我“打太极”。

“这一现象其实在很多银行都可能发生,可能只是没有找到数据发现他们。”刘维政则从数据的角度为我解读了这一事件给银行业带来了一个很好的启示,银行内部的风险管控也是很重要的一部分。

传统管控大多着重在结构化数据,像客户的开户数据都是非结构化数据,现在这些非结构化数据也要用相应的方式存储来了解顾客行为的变化,当然传统的KPI指标配置模式也值得去思考。

银行实质从事的就是风险业务,而数据是银行最有价值的资产,如何依靠数据量化风险发挥价值是成功的关键。当然最终所有的分析还要遵从银行的经营模式,就像在武侠小说里,各大门派都有着自己的一套武功体系一样,在银行的经营上也是如此,富国银行则重点在商业分析上具备明显优势。

富国银行企业模型风险部副总裁刘维政(Richard Liu)

大数据成就风险管理

目前富国银行拥有超过7000万个客户,8643家网点,虽然拥有众多的客户和网点,但富国银行每次看到这些庞大得数据仍然担心这些客户会流失,因为银行的三大职能存、贷、汇都是非常容易被替换的。

银行的客户流失可分为两种情况,一种是因为服务问题主动关闭账户,另一种则是安静型流失,因为在美国休眠6年的客户按照法规将被清理。

“银行最害怕客户在没有任何抱怨的前提下主动关闭账户。”刘维政说,在客户主动关闭账户前我们会有一个决策树,从中可以看到他提出问题的过程和轨迹,从而进行分析挽留客户。因为获得客户的成本和留下客户的成本相差千倍,富国银行建立了很多统计模型去预测一个人的终身价值(Life Time Value)。

传统的分析过程中比较偏向于名单似的销售,也就是从数据库中寻找客户价值,看到客户价值中缺少的产品,再产生一个名单进行跟进推销。这个模式可能大家都经历过,接到银行的来电推销产品,这一模式在经历了10年已经越来越低效,客户也逐渐产生疲倦效应。

富国银行则在利用大数据的过程中发现了一个重点,除了人的信息很重要外,时间信息实际上更重要,因为时间和人连接后一个重要的关键因素是行为的变化,就像你给一个整天待在家的人推销信用卡成功率会很低,而银行需要换位思考。刘维政举了一个生动的例子,当一个人出现在本身住所外的其他城市比例更高时,就可以断定这个人的用户习惯发生了改变,所以可以向其推销航空卡和信用卡来应对他的行为变化。

当然富国银行企业模型风险部的工作还不仅于此,其主要保证银行现金流的收入,因为银行风险管理的首要问题就是资产负债。一部分是通过数据建模进行信用风险评估,另一部分是银行操作流程风险,尤其在针对客户行为分析防范洗钱上美国银行都投入了庞大的成本。

说回幽灵账户事件,这也引出另一个重要问题,即如何把结构化数据和非结构化数据进行结合。银行需要回到基本的数据整理,充分运用大数据,除了结构化数据外,富国银行还会从非结构化数据中查看结构化数据的合理性,这中间也使用了人工智能的方式。

通过检测算法主动找到不正确的地方

更聪明地投资FinTech

在风险分析上,富国银行使用Teradata的产品已经有近20年之久,其中Teradata Aster的使用最为广泛,因为Aster提供了在同样分析条件时最简单的语法,这样企业就不需要雇佣资深的编程人员,普通的策略分析人员也可以利用简单的编程语言做高深的分析。

在开源方面,富国银行还用了Hadoop和Spark,因为在经济模型的构建中银行需要绝对的可控,尤其是后续在建好的架构中做修改。但企业在开源的过程中面临的最大问题是如何和原系统进行融合,所以富国银行也正在向着统一数据架构(UDA)进行演变,Teradata则提供了一个整体的服务整合。

在云计算方面,美国金融行业还是比较保守,银行要符合政府的安全规范。在刘维政看来,严格意义上讲真正的云计算是在资源集中化之后通过API跨不同平台实现调用,而富国银行的应用还只是在基础阶段。

富国银行把美国划分为四个区域,每个区域都有一个数据中心互相进行数据备份。由于美国希望创造一个经济平台,将不同领域的数据集中分析产生价值,所以富国银行的数据甚至还会备份到国家的数据中心。

不管是大数据还是云计算,这些都属于FinTech的范畴,而FinTech在全球金融领域又是不可不谈的一个话题。但在金融海啸之后美国银行受了很多伤,刘维政所看到的实际环境是,银行在科技上的支出非常受限,很多银行都在疲于支付高额的罚款。

由于和中国金融环境的不同,在FinTech上美国银行面临的问题是如何更聪明地去投资科技。对富国银行而言,FinTech也是一个重要项目,目前富国银行已经建立了加速器,希望在传统金融的思维上拥抱一些新的想法。

同时,富国银行在区块链这一去中介的记账方式上也做了很多研究,虽然其目前在交易上还很难应用,但在信用风险上有却着重要意义,尤其可以防止像2008年美国次贷危机的出现,在贷款过程中对借款进行追踪,实现透明化。

 

原文发布时间为:2017-7-14

本文作者:王聪彬

时间: 2024-09-05 21:38:40

从非结构化数据中发现问题 富国银行的风险分析之道的相关文章

非结构化数据——RAID模式已过时

一份来自Novell公司Ponemon研究所针对对美国94个大型企业的调查显示,平均每个公司每年花在非结构化数据处理上的成本为210万美元:而一些受到严格监管的行业,比如金融.制药.通讯和医疗行业的成本最高,每年将达到250万美元:另一个来自Unisphere Research的调查则显示,62%的受访者表示非结构化信息的产生是不可避免的,在未来十年内将超过传统数据.此外有35%的人表示,在未来的36个月里,非结构化的信息量将超过传统的关系数据. 据IDC的预测,现在全球数据量每18个月就要翻一

揭秘隐藏在非结构化数据背后的真相

本文讲的是揭秘隐藏在非结构化数据背后的真相,随着互联网技术的发展,大量非结构化数据逐渐走入人们的视野,数据科学家也开始将研究重点转移至非结构化数据.据Gartner预计,全球信息量每年的最低增长率为59%,其中有15%是结构化数据,其余的85%则由各种非结构化数据组成.在IDC的一项调查报告中也指出:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%. 非结构化数据是指那些不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档.文本.图片.XML.HTML.各类报表.图像和

大数据可能「说谎」非结构化数据将呈现更丰富的世界

在2017年的下半年谈论大数据似乎已经没有什么新意,甚至有些令人生厌了,毕竟这个词在中国已经流行太久,形形色色的产品.平台和公司早已贴满了大数据标签,而真正有价值的创新永远都是少数. 行业对于大数据的认知开始变得更加理性和客观,这是一种成熟的表现.但如果因此就认为大数据时代已经进入风平浪静的"发展期",那么我们很可能会错过一场更加波澜壮阔的变革. 被忽视的非结构化数据 在过去几年,大数据产业更多关注的是如何处理海量.多源和异构的数据,并从中获得价值,而其中绝大多数都是结构化数据.不可否

大数据可能“说谎” 非结构化数据将呈现更丰富的世界

在2017年的下半年谈论大数据似乎已经没有什么新意,甚至有些令人生厌了,毕竟这个词在中国已经流行太久,形形色色的产品.平台和公司早已贴满了大数据标签,而真正有价值的创新永远都是少数. 行业对于大数据的认知开始变得更加理性和客观,这是一种成熟的表现.但如果因此就认为大数据时代已经进入风平浪静的"发展期",那么我们很可能会错过一场更加波澜壮阔的变革. 被忽视的非结构化数据 在过去几年,大数据产业更多关注的是如何处理海量.多源和异构的数据,并从中获得价值,而其中绝大多数都是结构化数据.不可否

通过SQL 2008管理非结构化数据

通过SQL Server 2008管理非结构化数据 SQL Server 技术文档 作者:Graeme Malcolm (内容主管) 技术审核员:Shan Sinha 项目编辑:Joanne Hodgins 发布日期:2007年8月 适用产品:SQL Server 2008 概述:数字化信息的增长为企业应当存储和访问业务数据的方法提供了启发.数据库作为业务应用程序的核心,必须能够同非结构化的数据进行集成,其中包括文档.图像.视频.以及其它多媒体格式.为了能够对信息生命周期进行管理,满足策略需求,

结构化数据和非结构化数据是什么意思?

文章中提到的结构化数据.非结构化数据以及半结构化数据是对存储形式的一种数据类型分析,有助于企业细分行业案例,帮助存储合作伙伴更好地解决应用实施方案. 结构化数据,简单来说就是数据库.结合到典型场景中更容易理解,比如企业ERP.财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等.这些应用需要哪些存储方案呢?基本包括高速存储应用需求.数据备份需求.数据共享需求以及数据容灾需求. 非结构化数据,包括视频.音频.图片.图像.文档.文本等形式.具体到典型案例中,像是医疗影像系统.教育视

什么是结构化数据、非结构化数据?

  文章中提到的结构化数据.非结构化数据以及半结构化数据是对存储形式的一种数据类型分析,有助于企业细分行业案例,帮助存储合作伙伴更好地解决应用实施方案. 结构化数据,简单来说就是数据库.结合到典型场景中更容易理解,比如企业ERP.财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等.这些应用需要哪些存储方案呢?基本包括高速存储应用需求.数据备份需求.数据共享需求以及数据容灾需求. 非结构化数据,包括视频.音频.图片.图像.文档.文本等形式.具体到典型案例中,像是医疗影像系统.教

分析非结构化数据的10个步骤

如今,数据分析正在成为企业发展的重要组成部分.企业必须对结构化和非结构化数据有所了解,才能更好地为业务发展做出正确决策.以下是帮助企业分析非结构化数据的10个步骤: 1.确定一个数据源 了解有利于小型企业的数据来源非常重要.企业可以使用一个或多个数据源来收集与其业务相关的信息.而从随机数据源收集数据并不是一个好办法,因为这可能会破坏数据,甚至丢失一些数据.因此,建议企业在开始收集数据之前调查相关数据源.企业可以采用一些在线大数据开发工具收集数据. 2.管理非结构化数据搜索工具 收集到的结构化或非

MaxCompute与OSS非结构化数据读写互通(及图像处理实例)

0. 前言 MaxCompute作为阿里巴巴集团内部绝大多数大数据处理需求的核心计算组件,拥有强大的计算能力,随着集团内外大数据业务的不断扩展,新的数据使用场景也在不断产生.在这样的背景下,MaxCompute(ODPS)计算框架持续演化,而原来主要面对内部特殊格式数据的强大计算能力,也正在一步步的通过新增的非结构化数据处理框架,开放给不同的外部数据. 我们相信阿里巴巴集团的这种需求,也代表着业界大数据领域的最前沿实践和走向,具有相当的普适性.在之前我们已经对MaxCompute 2.0新增的非