表格存储在互联网风控和金融数据服务上的应用实践

引言

当前,第三方支付、P2P网贷、宝宝类理财、众筹等金融产品层出不穷,随着金融知识的普及,全民参与又进一步促进了互联网的发展。海量交易数据,实时在线访问,业务快速的迭代变化都对传统金融解决方案提出了更高的要求,而互联网金融本身的开放性,低门槛,征信信息的缺乏,又容易发生各类风险问题,这有给传统金融解决方案带来的新的挑战。借助云计算、大数据、搜索引擎等新一代高新技术,给互联网金融带来了新的机会。

新兴的互联网金融数据主要有以下几个特点:

海量数据

由于参与的人数众多且活跃度较高,日交易单数通常能够达到十万甚至是百万级别,很容易达到一个传统关系型数据库的单表上限。

快速迭代的业务模式

互联网金融需要不断发现新的机会,扩展新的业务模式,对底层的数据模型灵活性有非常高的要求。

访问并发波峰波谷明显

促销活动、新产品发售或者是特殊的节假日都会让访问并发暴增几个量级,每天的访问量也会和时间段有着密切的关系。

低延时

互联网产品更加注重用户体验,金融风控需要在极短的时间内做出风险判断。

强烈的分析需求

互联网金融可以从历史交易信息和用户行为日志中对用户进行多维分析,从而进一步降低金融风险。

系统稳定可靠

业务需要7*24小时运行,部分硬件故障不能影响业务运行。

数据安全

金融数据从来都需要最高的安全等级,必须保证机器宕机等硬件故障不会造成数据丢失,同时数据不会被窃取、泄露。

阿里云表格存储是一款全托管的NoSQL数据存储服务,支持 海量数据 的存储和 单个毫秒级 的单行平均访问延时, 无缝扩展和弹性资源 都非常适合金融场景,更支持到 表级别和API级别 的授权管理以及 虚拟网络VPC ,全方位保障数据安全。

PS:阿里云专为微金融行业量身定制的金融云中也有表格存储哦。

下面基于表格存储现有的金融客户案例,和大家分享一下表格存储在互联网风控和金融数据服务上的应用实践。

互联网风控

传统金融的风险控制,主要是基于央行的征信数据及银行体系内的生态数据依靠人工审核完成,一方面国内的征信服务并不完善,另外一方面,人工审核的速度也远远适应不了巨大的风控需求。

但是依托与云计算的大数据存储与分析,结合用户的网上消费行为数据、通讯数据、信用卡数据、第三方征信数据等丰富而全面的数据,让系统来完成风险判断,大大提高了风控的效率和准确率。

目前大多数风控系统都是使用内存数据库存储风控数据信息来保证风控系统的实时性,虽然内存数据库有极低的相应延时,但是出现宕机等机器故障,风控数据就会丢失,造成风控系统的不可用,且使用内存数据库也导致风控系统水平扩展较为困难。表格存储在读写性能上与风控数据库没有太明显差别,能够满足风控场景的需要,并且保证了数据的持久化和高可用。

基于表格存储的风控系统架构如下图:

风控事件的处理流程如下:

1.登录

用户在登录时会根据用户登录的ip、解锁行为等进行登录风控判断,防止用户被盗号或者设备丢失造成进一步损失。表格存储的多版本特性可以只保留用户最近若干次的登录信息,较早的登录信息系统会自动删除,无需系统维护登录信息。
比如风控系统需要最用户最近10次的登录地点进行验证,来判断是否需要用户提供更多的信息来登录。设置用户登录信息最大版本为10,当用户第11次登录时,最早的登录信息会被系统自动删除。风控系统在读取的时候读取该用户的登录信息,指定读取的版本为10,则会读出最近10次的登录信息,大大减小了系统的复杂度。

2. 行为记录

当用户进行交易或其他行为事件时,系统将用户行为写入表格存储中。

3. 分析计算

定期使用大数据计算服务(Max Compute)或者StreamSQL对用户行为日志结合用户信息库进行分析,得到用户的信用结果,更新该用户在风控数据库中的信用度、可用额度、偏好等征信数据信息。

4. 风控计算

当需要进行风控的事件产生时,风控引擎会根据触发事件从风控模型库中读取相应的风控模型集合,对从风控数据库中读取该用户的征信数据依次进行计算,来判断此次事件是否准入。

以线上支付为例,当用户在国外某地进行一笔5万块的线上交易,从风控模型库中读取相应的风控模型集合中需要对用户的额度和交易地点进行判断,从风控数据库中拿到的用户征信信息中,用户的额度为10万,但是上次交易发生在1个小时前,且地点为国内,那么额度判断PASS,交易地点判断FAIL,那么此次交易有盗刷或者欺诈嫌疑,系统则判定此次交易失败。

从上述对风控系统的描述中,我们不难发现,进行线上交易时,风控系统的介入时间需要足够短以保证终端的用户体验,那么对读取用户征信数据的延时有着非常高的要求,风控模型库越丰富,交易风险也就会越小。

同时,不断扩展的新业务也会需要新的风控模型,用户的征信信息也会不断发生变化,表格存储SchemaFree的稀疏表结构免去繁琐的表结构变更操作,保证了上层业务的灵活性。

风控不仅仅在互联网金融上是强需求,在互联网社交上也起着非常重要的作用。

金融交易数据在线服务系统

除了风控系统,海量交易数据的收集、清洗、存储、实时访问和分析也对传统的解决方案提出了很大的挑战。让我们来看看表格存储配合众多云产品是如何来面对这些挑战的。

基于表格存储的金融数据服务系统架构如下图:

数据采集

一般的金融系统中,用户的交易记录或者行为数据会直接上传至应用服务器进行数据校验或数据清洗,但当终端用户规模较大时,为了避免交易记录或行为数据在客户端堆积,需要大量的应用服务器来保证数据处理的实时性。这个时候,可以将用户数据写入消息队列中(消息服务MNS),再有应用程序订阅消息队列中的数据,当有新的数据到达,触发应用服务的清晰逻辑。

PS:消息服务能够起到将业务访问流量削峰填谷的作用,同时也降低了数据收集与数据处理系统之间的耦合性。

数据清洗

数据的校验、清洗与用户的业务逻辑密切相关。可以在ECS上搭建应用服务来对数据做出处理,也可以通过StreamSQL对数据进行清洗、计算、汇总。Stream Compute无缝对接后端的大数据计算服务(Max Compute)和表格存储等云产品。

数据存储与分析

对于经过数据校验、清洗之后的数据,一方面需要流入到历史交易数据库中,提供给在线业务层进行实时访问,比如历史交易查询,简单的汇总分析,比如某个用户最近一周的交易记录,交易金额趋势等。由于表格存储目前还不支持索引,可以根据业务查询需求建立相应的索引表,数据流入时,根据需要写入多张索引表中。比如根据交易机构的历史查询或者基于交易类别的历史查询。
另外一方面,数据需要流入大数据计算平台中,对用户行为进行分析,比如使用机器学习根据用户的历史交易金额计算出用户的信用分和信用额度等征信信息。

在线业务层

这一层直接对终端用户提供服务,比如用户的历史交易查询、第三方征信信息获取,简单的行为趋势分析计算。

这一层的再线业务查询中,有简单的用户交易流水查询,也有对固定的分析结果的查询,比如用户的月度交易情况,也有部分多维度的查询需求,比如来自某一个交易机构的或者交易区间的交易流水查询。

构建多维度查询

在表格存储上,可以构建多张索引表来提供多维度的查询信息。比如用户历史流水表的主键为[uid,timestamp], 基于机构交易的数据表主键就可以为[organization_id,timestamp,uid],用来满足对交易机构的交易流水查询。

在上述的数据处理层中,可以很方便的把交易数据通过流计算(Stream Compute)进行过滤、提取、汇总,写到表格存储的不同的表中。流计算支持对同一批数据进行不同的过滤、提取、汇总以及结果写入到不同的数据表中。这样就满足了海量数据的多维度查询需求。

写在最后

表格存储的高并发、低延时、无缝扩展,非常适合金融领域对数据的需求,欢迎大家来了解表格存储,有任何问题也欢迎加入表格存储的用户旺旺交流群:150161769

时间: 2024-09-30 04:55:17

表格存储在互联网风控和金融数据服务上的应用实践的相关文章

[深度分析]金融数据服务创业机会

在一些企业家和风投眼里,彭博的金融终端机多少是一个异类, 甚至是属于上个时代的产物. 当今时代,免费信息充斥互联网, 开源的大数据分析工具也不少,然而彭博的终端机业务却可以通过销售数据和数据分析工具,每年获得数十亿美元的收入, 且很多数据是彭博从第三方获得的.偶尔,你可能会听到人们嘲讽它的操作界面让人回想起 DOS 时代的简陋. 如今,各个行业都在加速细分和解绑(unbundling),金融服务业也并非例外,然而,彭博的的金融终端却毫不动摇的继续推进绑定(bundling)策略:一个产品,一个价

阿里巴巴与上海文广合作拓展商业和金融数据服务

阿里巴巴与上海文广合作拓展商业和金融数据服务11月26日消息,阿里巴巴与 上海文广集团达成合作,共同拓展商业与金融数据服务以及财经资讯领域的服务,双方将以上海文广旗下第一财经为平台,借助各自在数据.资讯.技术.研究和市场推广方面的优势,进入数据服务领域.此前,阿里巴巴董事局主席马云收购的恒生电子发布公告称,已与第一财经. 蚂蚁金服.云汉投资签署<合作意向书>,各方将在数据业务领域寻求资本及业务层面的合作机会,三方将向恒生电子的控股子公司恒生聚源增资共计3.9亿元,共同将其打造成一家领先的数据服

七牛云存储CEO许式伟:围绕数据服务可以展开无限想象

七牛云存储CEO许式伟在几年间接受的采访并不多,甚至在公开场合都很少看到他的身影,并不是不善言辞,而是他有着一个自己的小世界.敲开他办公室的门,有四五个技术人员正在进行封闭开发,你可以直观的感受到这和传统的CEO作风大相径庭,也可以理解他选择不抛头露面的原因是用更多的时间来潜心研究和完善产品. 想要了解许式伟还要先从创立七牛说起,七牛从云存储起家技术自然过硬,所以称得上是技术牛人.但七牛云存储CEO许式伟并没有把自定位为一个纯粹的技术人,从2000年开始许式伟成为了一个技术人员,在六年的技术生涯

表格存储技术方案实践及客户案例分享

表格存储是一款2014年10月份正式商业化的NoSQL数据存储服务,在商业化之前,早在2010年就在阿里云内部开始使用,云邮箱和云OS都是表格存储最早的一批用户.到目前,无论是在阿里集团内部还是在公共云环境上,在移动社交.金融风控.电商物流.存储备份.物联网IoT.日志监控.大数据分析报表等领域都有着广泛的用户基础与成熟的实践方案. 为了方便更多的用户了解和使用表格存储,该帖子会将最近非常有参考意义的方案设计.技术实践及相关客户分享的博客文章汇总到这里,大家可以在这里快速查找到和自己业务场景相近

老司机带你用MaxCompute和表格存储玩转车联网数据

"自动驾驶汽车"在近两年频频出现于各大科技新闻头条,自2012年谷歌获得美国首个自动驾驶汽车许可证以来,国外各大知名汽车厂商如奔驰.沃尔沃.大众.通用.丰田.日产.特斯拉等也纷纷宣布自己的自动驾驶汽车验证开发计划.自动驾驶依托于人工智能技术的发展,而对于一个人工智能平台来说,重要的不光是算法和平台,更重要的是数据!今天我们暂且不聊自动驾驶,我们先聊聊最基础的车联网数据的存储与处理. 初始方案 出于对两客一危监管的需要,车联网很早就开始起步,彼时大家的车联网方案都长这个样子:   将车辆

表格存储实时数据流:Stream的技术揭秘和应用场景

在2017云栖大会-成都峰会上阿里云存储服务专家周赵锋做了题为<表格存储实时数据流:Stream的技术揭秘和应用场景>的分享.面对应用开发的新挑战和数据库新需求,基于共享存储的高性能.低成本.易扩展.全托管的表格存储能更好支撑互联网和物联网数据的高效计算与分析,并从特性.数据模型和高可用架构方面对表格存储进行简介.表格存储应用场景有即时通讯.安全风控.时序数据,使用表格存储的应用场景可以挖掘数据高附加值,实现存储对接计算.

深入对比 HBase 与阿里云的表格存储服务

随着互联网时代的兴起,NoSQL 类型数据库正日渐成为大数据时代下分布式数据库领域的主力,分布式 NoSQL 数据库中最为著名的莫过于 HBase.谷歌的 Bigtable 于 2016 年推出了兼容 HBase 的接口,而作为国内最早推出分布式 NoSQL 数据存储服务的阿里云表格存储也在最近正式发布了 TableStore HBase Client,能够帮助用户将业务轻松从 HBase 迁移至表格存储. 让我们来深入对比下阿里云的表格存储与 HBase 到底有何异同. 软件与服务 通过对表格

金融数据创业公司的机会

  彭博终端机在某些企业家和风投家眼里可能有点另类,甚至可能是个已经落伍的东西.在如今这个网络年代,人人都能从互联网和开源大数据工具上获得免费的信息,而彭博终端这个基本上是由第三方数据和分析工具攒在一块儿的东西居然还好意思跟用户收钱.另外大家也经常能听见有人报怨它的界面像80年代的产物.现在包括金融服务业在内的许多行业都在加速"松绑",但彭博终端机是个典型的"捆绑销售"产品:它只有一个产品,一个价格,但是它有3000多个功能,这就意味着普通用户顶多能用上其中的一小部

表格存储如何实现高可靠和高可用

系列文章 表格存储如何实现高可靠和高可用表格存储如何实现跨区域的容灾 前言 本文会介绍一款分布式NoSQL如何实现数据高可靠和服务高可用,这是一款云上的NoSQL服务,叫做表格存储.对于分布式NoSQL,大家可能会想到很多名字,比如HBase.Cassandra,AWS的DynamoDB等,这类NoSQL在设计之初就作为一个分布式系统支持超大规模的数据量与并发.此外大家可能还会想到MongoDB和Redis,这两个也提供集群功能,但是一般需要人为的配置sharding和复制集/主从等. 表格存储