防止坠入“大数据陷阱”,除了技术还需要什么?

摘要面对互联网金融大潮,在兴奋激动之余,我们还需要一种相对冷静平和的心态。如果我们真的要搞金融大数据开发,真的要靠有关数据来办互联网金融,那确实就要认真思考一下自己所谓拥有的“大数据”真的足够大了吗?足够长了吗?

当今,互联网化正带动着许多行业、产业的组织变革和商业变革。在这一历史性的进程中,互联网技术的迅速发展也给金融领域的创新带来了巨大活力,显著提升了金融服务的水平。首先,从银行来说,现在银行已普遍通过互联网渠道开办各类业务,银行服务的成本有了下降(电子银行每笔交易成本大约只有银行柜台每笔交易成本的五分之一到六分之一);银行传统信贷的模式有了改变(例如工商银行(601398,股吧)无人工参与的全流程在线的网络贷款已超过其网络融资的20%);银行业务处理能力尤其是支付结算的能力和效率都有了提高(例如工商银行现在每秒钟业务交易量峰值已超过8700笔,在去年一年的电子银行交易已占全部交易的88%,电子银行交易金额达到了456万亿元,所有的异地支付早已实现实时完成。);各家银行的服务模式都已越来越多地、越来越自然地融入商业场景之中,一个覆盖和贯通金融服务、电子商务、社交生活的互联网银行架构正在不断形成和完善。其次,这些年来,各类互联网企业从事金融业务的也越来越多,互联网金融已从最初的电子商务、第三方支付等更多进入了资金募集、理财和借贷领域。如果说Paypal、ApplePay和支付宝等,是让小额支付更便捷,那么P2P、众筹包括余额宝等则是对金融资源配置方式的一种有意义的探索,它给不少人提供了一种新的投资渠道,也满足了一些人筹集资金的需求。近来,一些人又已经开始把更多注意力放到了区块链技术,不少人正在争先恐后地进行基于区块链的支付和记录技术等方面的研究和开发。

这一切都是显得那么的令人振奋,令人欣喜。但我认为在看到互联网金融快速发展所带来的种种积极变化的时候,在继续推进金融创新的过程中,似乎也应该注意两个问题,一、金融创新的全部内容是不是金融的互联网化;二、是否应该避免陷入技术至上、唯数据论的误区。第一点比较容易理解,答案也应该是明确的。关于第二点想必看法不会完全一致。我想就此谈谈一己浅见。这可以从北京大学国家发展研究院沈艳教授最近的一篇文章说起。

沈艳教授的文章题目是《大数据分析的光荣与陷阱——从谷歌流感趋势谈起》。她在文章中讲了一个故事,那就是谷歌公司在2008年11月启动了一个“谷歌流感趋势”(GoogleFluTrends,GFT)项目,这个项目曾被许多人认为是大数据分析优势的一个证明。这个项目的团队曾宣布他们通过数十亿搜索中45个可能涉及流感关键词的分析,就能够比美国疾控中心提前预报流感的发病率,从而使人们可以有充足的时间提前采取预防措施以避免患上流感。倘若真能如此,这个成果无疑具有重要的社会意义和经济价值。可惜的是2014年,美国《科学》杂志的有关文献报道了GFT在2009年没有能预测到有关流感的爆发,在2011年8月到2013年8月间的108周里,有100周预告不准(预测率是实际报告值的1.5倍多)。沈艳诘问道,为什么传说中充满荣光的大数据分析会出现如此大的系统性误差呢?她认为如果在数据分析中只关心相关关系而不注意因果关系是不行的,必须避免模型对数据值作出“过度拟合”,她还指出尤需注意不能以为大数据可以完全替代小数据,她呼吁要防止坠入“大数据陷阱”,力戒“大数据自大”。我十分赞同沈艳的观点。沈教授所指出的问题正是若干年来我们在推进互联网金融发展中所一直十分注意和努力想解决的问题。

撇开银行在产品研发、客户营销、员工及机构管理等方面的数据应用问题暂且不谈,就说银行最常见也最重视的风险管理,多年来许多银行尤其是一些大中型银行都在如何利用数据技术提升风险管控能力方面进行了很多的探索,做出了不懈的努力。例如,工商银行在估算客户的违约概率(PD)、违约损失率(LGD)的时候,十分注意把数据长度作为风险参数量化过程中的一个重要因素,坚持要求数据观察期起码必须涵盖一个完整的经济周期,以努力避免简单地以昨天的数据来说明今天和预测明天。现在工商银行非零售业务和零售业务的客户违约率、损失率数据积累长度均已超过12年。同时包括工商银行在内的不少银行还建立起了全行数据质量的管理标准和平台,不断进行内部评级的复核验证,以尽可能减少失真数据的干扰和影响。为了能够对各种风险进行量化,在信用风险管理方面仅工行就开发了34个法人客户评级模型,实现了对所有法人客户违约概率(PD)的计量,开发了175个信贷产品的3类债项评级模型,实现了对违约损失率(LGD)的计量。对零售业务,工行还开发了75个信用评分模型,覆盖了个人客户准入、账户信贷审批和业务管理的完整业务生命周期。在面对市场风险(因市场价格例如利率、汇率、债券股票价格、商品价格的不利变动,而使商业银行表内和表外业务发生损失的风险)的防控方面,我们制定了16个办法,开发了17个定价估值模型来进行风险价值(VaR)和压力风险价值(SVaR)的计量,并且在实践过程中每日实施返回检验,把模型计算所得的风险价值与发生的真实损益进行比较,以检验模型、方法的准确性和可靠性。在防控操作风险(主要是指由不完善或有问题的内部程序、员工行为和信息科技系统,以及外部事件所造成的风险)方面,工行开发了操作风险损失事件管理系统,分别用于对操作风险高频低损和低频高损部分的计量。

为了达到上述的这种数据采集、挖掘和应用水平,仅为积累有关数据、开发这些风险管控模型,工商银行就先后花了将近15年时间,投入了巨大的人力和财力。尽管目前这一套风险识别和计量的方法、模型已经按照国际金融稳定理事会的有关标准,经过监管部门组织的多轮评估获得通过,认定为合格,但坦率地说,我们从来也没有认为这一切已经是完美无缺的了。面对不断变化的社会经济环境,随着银行业务日新月异的发展,在数据的管理利用方面确实还有许多问题需要解决,前面的路还很长。这也正是工商银行近年来又推出了eICBC新发展战略的一个重要原因。

我之所以不惜篇幅地介绍这些情况,主要想说的就是许多事确实不像想象的那么简单。面对互联网金融大潮,在兴奋激动之余,我们还需要一种相对冷静平和的心态。如果我们真的要搞金融大数据开发,真的要靠有关数据来办互联网金融,那确实就要认真思考一下自己所谓拥有的“大数据”真的足够大了吗?足够长了吗?

自己拥有的数据中的信噪比问题有效解决了吗?自己拥有的数据分析模型如果对样本内的数据分析还算准确的话,那它对样本外的预测结果也能一样有效吗?自己所拥有的数据处理模型是否完全建立在一种假定之上了,那就是以为人们的社交行为数据、那些非结构化数据都是真实的?坦率地说,我始终认为只要一些数据生成者知晓自己的行为数据可以影响自己的利益(例如可以获得信誉、信用积分,可以获得授信融资等),那对这部分数据的可靠性就有质疑的理由。这也许就是人文科学领域的“测不准原理”。现在各种花样百出的水军现象已经一再提示我们,真是“不能天真地认为数据使用者和数据生成机构都是无意识生产大数据的”(沈艳,2015)。

上述这些还没有涉及诸如homes系统、高频交易等技术在这一轮股市风波中的作用究竟应该如何认定的问题。尽管对此还可能有这样那样的看法,但可以确定的是,在某些条件下,所谓的技术中性在面对市场时是完全可能发生变异的。

总之,我认为金融的创新、互联网金融的发展,除了技术,还需要一系列的条件支撑,包括营造一种良好的文化氛围。在眼花缭乱之中,要力戒浮躁,脚踏实地。互联网技术是时代进步的标志,是现代文明的产物,它与那些江湖气其实是不搭的。诸如“流量为王,就是要靠烧钱来吸引客户”,“互联网就是财富重分的过程,就是赢者通吃的游戏”,“羊毛出在猪身上,猴数钱,牛买单”等说法,如果仅是开开玩笑,说说段子,那也未尝不可,但作为一个要对投资者负责、对债权人负责、对债务人负责、对市场稳定负责的金融从业者来说,如果把这真的当成了自己的经营理念,那是万万不可的。

本文作者:佚名

来源:51CTO

时间: 2024-08-02 02:47:25

防止坠入“大数据陷阱”,除了技术还需要什么?的相关文章

挑战大数据 浅析NoSQL技术

目前我们都生活在一个庞大的数据存数时代,然而大数据及其底层技术NoSQL也正成为了互联网的一个流行语.对于谷歌以及Facebook,IBM这样的全球互联网企业,NoSQL这种高扩展的非关系型数据库存数的使用往往已经超过关系型数据库.事实上,在海量数据和半结构化数据的一些问题过程中,已经诞生了一系列新型数据库产品,而这些数据库我们称之为NoSQL. 2013年4月26日-27日,由51CTO传媒集团旗下WOT(World Of Tech)品牌主办的2013大数据全球技术峰会在北京富力万丽酒店召开.

普元发布政务大数据解决方案 用技术提升数据质量

今年9月初,国务院通过<关于促进大数据发展的行动纲要>,将大数据上升为国家战略.在纲要中提到,要大力推动政府信息系统和公共数据互联开放共享,加快政府信息平台整合.可见在大数据时代下,政府对于数据的整合.打破信息壁垒同样存在着需求. 11月25日,国内领先的软件基础平台与解决方案提供商普元信息技术股份有限公司,在京召开了普元政务大数据解决方案发布会.普元信息CTO焦烈焱认为,政府是一个非常好的大数据场所,通过电子应用的建设,从而达到提高政府的监管水平.为整个社会的公共服务提供支撑.以及拉动产业三

中关村蕴酿民营银行 通过大数据和互联网技术运营

放松民营资本进入银行业的政策信号越来越强烈. 8月9日,银监会发布<中资商业银行行政许可事项实施办法>(2013年版征求意见稿,以下简称<办法>),拟修订自2006年2月1日施行的<中资银行设立办法>(下称2006版).和旧版本相比,<办法>在中资商业银行设立方面,特别是境内金融机构发起设立中资银行方面有一定的放松. "这个<办法>与监管层最近频繁释放民营银行设立的消息有很大关系."中央财经大学中国银行业研究中心主任郭田勇表示

大数据平台架构技术选型与场景运用

一.大数据平台 大数据在工作中的应用有三种: 与业务相关,比如用户画像.风险控制等; 与决策相关,数据科学的领域,了解统计学.算法,这是数据科学家的范畴; 与工程相关,如何实施.如何实现.解决什么业务问题,这是数据工程师的工作. 数据工程师在业务和数据科学家之间搭建起实践的桥梁.本文要分享的大数据平台架构技术选型及场景运用偏向于工程方面. 如图所示,大数据平台第一个要素就是数据源,我们要处理的数据源往往是在业务系统上,数据分析的时候可能不会直接对业务的数据源进行处理,而是先经过数据采集.数据存储

创业板企业在大数据领域的技术与专利现状分析

大数据时代带来了机遇和挑战,首先获益的便是IT行业.大数据已成为信息产业新的增长点,其发展已从以谷歌(Google).亚马逊(Amazon).雅虎(Yahoo)为代表的互联网大公司,蔓延到越来越多的创业型中小公司,这些公司在其不同的领域进行着各自大数据的发展,创造出了更多的商业模式和经济增长点. 资本市场逐利新概念股总是具有超强的敏锐性,大数据主题投资已在业内引起高度关注,国内多家证券机构也力荐"大数据概念股",其已成为一条全新的投资主线.本文对在创业板上市的计算机企业中涉及大数据的相

阿里巴巴资深算法专家刘忠义:聚星台——客户运营核心大数据与算法技术

大流量高并发互联网应用实践在线峰会官网:https://yq.aliyun.com/activity/112 峰会统一报名链接:http://yq.aliyun.com/webinar/join/49 议题名称:<聚星台:客户运营核心大数据与算法技术> 议题简介:聚星台是阿里巴巴赋能商家的客户运营平台,为商家提供包括千人千面访客运营.个性化营销.粉丝会员运营在内的一系列大数据驱动的客户运营能力.本次分享主要介绍聚星台的核心大数据和算法技术,包括智能千人千面算法.个性化营销算法.粉丝与会员运营算

主流大数据SQL引擎技术博弈,谁为王?

文章讲的是主流大数据SQL引擎技术博弈,谁为王,近日,AtScale公布了第四季度主流大数据SQL引擎的测试结果,主要针对Spark.Impala.Hive/Tez以及Presto. 测试结果证实了我们早已实践出的一些事情:Impala是中等大小数据库查询的最佳选择,并且已经积累了不少用户,Presto在这方面也做得不错.Hive和Spark更适用于长时间分析查询. AtScale产品管理方面副总Joshua Klar表示,许多公司客户使用两个引擎.通常他们认为Hive更稳定,并且更习惯于使用H

能够从大数据与分析技术中获得显著收益的十个行业

本期给大家推荐的是哪些行业能够从大数据与分析技术中获得显著收益.IT管理者必须了解的七大开发团队秘密.如何着眼于未来发展需求选择最佳移动应用开发平台和思科聚焦iOS 10中的那些最佳企业功能等. 一.能够从大数据与分析技术中获得显著收益的十个行业 大数据是技术界乃至整个星球的下一波革命性浪潮.事实上,对这一突破性技术如何加以赞誉似乎都不为过.但从另一个角度讲,大数据给各个行业带来的实际收益其实各不相同.那么,哪些行业能够从中获得最为显著的回报? 1. 旅游业 2. 能源业 3. 保险业 4. 金

大数据时代审计技术方法的发展趋势

步入新世纪以来,信息技术迅猛发展,与之相伴随的是给整个社会带来了一场生产生活方式以及思维模式的变革,从而使我们的工作生活环境发生了巨大的变化,大数据已经成为与石油相媲美的一项战略资源,可以说,大数据时代已经到来.国家审计机关作为与数据密切接触的部门,必将会迎来大数据时代所带来的机遇与挑战.面对大数据时代这一发展趋势,国家审计机关已经开展了"金审工程"一期.二期,并部署了三期工程."金审工程"的稳步推进,必将有助于实现国家审计的"免疫系统"功能,充