【演讲实录】银行PB级别海量非结构化数据管理实践

近期,巨杉数据库的技术总监郝大为受邀在第七届数据技术嘉年华中做了“银行PB级别海量非结构化数据管理实践”为主题的演讲,分享了巨杉数据库有关金融行业数据库管理以及金融级数据库技术与应用的一些实践及思考。

新一代金融级数据管理需求








数据爆炸:数据呈现急剧增长,对数据存储的数据量,并发性和响应速度都提出了更高要求。以大型商业银行为例,通常它们拥有成百上千个业务系统以及上亿用户的海量数据,且数量呈现指数级增长,从TB级别增加到PB级别,未来很快就会增加至EB级别,这些都需要有效的管理以及实现实时访问。

数据融合:不仅是金融行业,在过去,各个业务的数据都是以孤岛的形式独立存在,而我们需要的是跨业务、跨业务系统的数据统一管理和维护,甚至需要统一架构支撑下的数据沟通交流。打破数据孤岛就成为金融行业的切实需求。

非结构化数据:非结构数据在金融行业数据量上的占比逐渐占绝对优势的一种数据存在的形式。图像、图片、语音、有格式的文档都是非结构化数据,非结构化数据量每年增长80%左右。数据量的快速增加,再加上对银行业两地三中心数据安全的要求,对非结构化数据的存储和管理的要求就提高了。这也是金融业的行业需求。

随着银行远程开户、柜面无纸化、双录、会计档案管理等系统的建立和升级,影像系统除了满足商业银行在线业务系统不断提升的访问性能需求外,还需要提供作为在线系统的高可用、灾备甚至“双活”能力,以保证系统数据绝对安全。

金融级数据库核心能力

面对金融行业的新需求,新一代金融级数据库需要在分布式架构、非结构化数据管理、多模式数据处理、标准化数据访问、数据可靠性、与混合负载等几个角度对传统数据库架构进行重新定义。


1)分布式架构

由于传统数据库的单点架构无法满足新型金融科技应用对数据量与并发能力的需求,新一代金融级数据库必须采用分布式架构来应对该类挑战。分布式架构,将海量数据均匀存储在多台物理设备中,以避免单一设备所造成的瓶颈。同时,分布式数据库的灵活扩展能力,为金融业务增长提供了弹性的容量与性能支持,在大规模数据应用中具有明显的技术优势。

我们以巨杉分布式架构为例,无论是数据还是文件系统等元数据都要进行分布式存储,同时元数据的管理也应该是分布式、高可用、没有单点故障的。分布式架构必须具备弹性拓展和性能线性增长,同事分布式架构可以有效降低TCO、总体应用成本。分布式架构有很好的管理能力,可以降低开发运维的成本。

2)多模式数据管理---非结构化数据管理

如今,在金融业务“互联网化”和“零售化”的趋势下,金融机构开始向用户提供更多个性化、定制化的产品与服务。特别是非结构化数据,增长最为迅猛。

通常来说,结构化数据特指表单类型的数据存储结构,典型应用包括银行核心交易等传统业务;而半结构化数据则在用户画像、物联网设备日志采集、应用点击流分析等场景中得到大规模使用;非结构化数据则对应着海量的的图片、视频、和文档处理等业务,在金融科技的发展下增长迅速。

为了实现金融业务数据的统一管理和数据融合,新型数据库需要具备多模式(Multi-Model)数据管理和存储的能力,以满足应用程序对于结构化、半结构化、非结构化数据的管理需求。

多模式数据管理能力,使得金融级数据库能够进行跨部门、跨业务的数据统一存储与管理,实现多业务数据融合,支撑多样化的金融服务。

3)标准数据访问与混合负载

根据Gartner的最新定义,混合负载(HTAP Hybrid Transactional/Analytical Processing)在保留原有在线交易功能的同时,也强调了数据库原生计算分析的能力。支持混合负载的数据库能够避免在传统架构中,在线与离线数据库之间大量的数据交互,同时也能够针对最新的业务数据进行实时统计分析。

为了避免在线实时读写与批处理作业之间的资源干扰,混合负载型数据库通常使用读写分离或内存处理技术实现。一般来说,分布式数据库的多副本架构天然支持读写分离技术,而基于传统架构的数据库往往采用内存处理技术进行实现。

4)数据安全

伴随着在企业内部价值的不断提升,数据已经成为了金融企业的生命线与核心资产。作为承载着企业关键数据的数据库,其安全性、可靠性、稳定性一直是金融级数据库的核心价值。

数据安全领域重要的一个概念是容灾能力,银监会就要求银行业要符合两地三中心的要求。这其实是一个数据多副本的思想,任何一个副本丢失我们还有其他副本可以支撑数据管理的需求,数据服务的需求。这对于金融企业显得尤其重要。

金融级数据库应用案例

1)银行业分布式影像平台

银行业影像平台案例,是在某大型股份制银行实施的,该平台底层基于巨杉数据库,目前已经投入生产。

巨杉数据库适合于结构化、非结构化、半结构化数据存储。在应用层面提供对外的影像文件管理服务能力,有两台或者更多台具备负载均衡和高可用能力的应用服务器,服务器上对接的是银行内部业务系统,当需要查非结构化数据时就可以接入影像管理平台,巨杉数据库支撑的是PB级的数据存储,同时支持了高可用。

此外,巨杉数据库支持多索引,毫秒级别实时数据访问,这么大数据量下依然提供这么大的访问性能,总体应用成本跟过去影像平台对比可以降低三分之一,这是整个巨杉数据库分布式的架构决定的。

2)证券超高并发数据访问

证券交易主要特点是频度高,每天可能有上亿条交易数据。证券交易场景一般都是结构化数据,大量结构化数据进入系统提高高并发的结构能力。

这个系统可以帮助用户查询证券交易的所有历史交易明细,并且查询的返回速度依然很高,在海量数据情况下可能做到百毫秒以内的查询范围。

实现结果:

  • 平均每日超过2亿条记录写入
  • 高峰时段,同时有超过百亿级别的数据需要被检索、调用
  • 系统保存3年内所有交易和持有数据
  • 峰值并发量超过10000
  • 高峰时段,查询返回时间小于100ms

3)银行海量数据管理

关于银行海量数据的管理平台,实际上是银行多业务系统的结构化数据组成一个统一的查询平台,用户可以通过这个平台去查询业务,而不再需要查询原有业务系统,这样原有业务系统数据库的负载就降下来了。原有业务系统数据库只保存需要在线交易的那部分数据,其他的数据全部储存在巨杉数据库。

SequoiaDB利用其横向扩展、支持标准SQL以及双引擎的机制,能够在存储海量历史数据的同时对外提供在线查询与分析能力,这就使得银行能将传统的离线数据做到近线化,将冷数据有效地使用起来。

巨杉数据库的多家银行客户使用SequoiaDB提供高并发的数据查询和访问功能,使银行客户能够在柜台、网银、手机银行上随时随地查询开户以来所有的交易历史。同时,该平台可以提供司法查询的能力,使银行IT部门不需要为了复杂多变的查询请求,在历史带库与数据库之间疲于奔命。

4)其他案例

在政府行业,巨杉数据库可以对电子证件进行集中存储和查询,可以帮助行政服务大厅或者其他政府部门查询信息,提升工作的效率。

在交通领域,大量摄像头实时采集的图片和视频数据需要存储,并且现在还增加了实时处理分析套牌违规等行为,这背后也需要强大的数据存储管理查询或者存储引擎支撑海量的数据,巨杉数据库能够有效满足这种需求。

原文发布时间为:2017-11-30本文作者:郝大为本文来自合作伙伴“数据和云”,了解相关信息可以关注“数据和云”微信公众号

时间: 2024-08-27 15:36:34

【演讲实录】银行PB级别海量非结构化数据管理实践的相关文章

IBM突围非结构化数据管理新趋势

近日,IBM在沈阳举行了IBM企业内容管理用户大会巡展.会上,IBM详细阐述了企业内容管理(Enterprise Content Management,ECM)未来发展战略.针对非结构化数据管理新趋势带来的挑战,IBM企业内容管理打破传统业务模式,首创性的推出重点行业应用模板新型业务,与IBM企业内容管理旗舰性传统解决方案--企业报告管理解决方案Content Manager OnDemand(CMOD)和信息捕获解决方案Datacap,共同为企业内容管理描绘全面解决方案蓝图,加速企业业务价值实

从非结构化数据中发现问题 富国银行的风险分析之道

9月初,美国消费者金融保护局称美国富国银行(Wells Fargo)员工在未告知客户的情况下,自2011年起私自建立近两百万个虚假银行账户,富国银行被要求支付1.9亿美金高额的罚款. 9月中旬我也在大洋彼岸见到了美国富国银行企业模型风险部副总裁刘维政(Richard Liu),第二次见面没有客气,一上来我就提出了"幽灵账户"和风险管控的问题.虽然刘维政最近正热衷于研究和学习太极,但他却并没有和我"打太极". "这一现象其实在很多银行都可能发生,可能只是没有

通过企业内容管理(ECM)利用大量非结构化数据

如今的企业无一不受信息泛滥的困扰,这已经不是什么秘密.我们被大量不断增长的数据包围.许多机构内的非结构化内容(从打印文档到社交媒体文章)在无节制的增长.对于许多机构而言,非结构化内容已经占到总体企业信息的 80% 或更高比例.在对纸张密集型流程挥之不去的依赖以及个人和共同使用的数字内容的混乱扩散的驱动下,此类内容不断增长. 好消息是,企业内的人员.设备和系统生成的每一则信息均可用作竞争优势.前瞻性企业已经意识到,用户与内容之间的成功互动在提高业务成果方面发挥着重要的作用.例如,在许多企业中,客户

解决非结构化数据安全风险,从何处入手?

身份和访问管理(IAM)是很棘手的领域,是因为IAM技术和标准的复杂性.最大的挑战是弄清楚如何通过IAM战略处理企业内非结构化内容. 考虑到数据位置的多样性以及数据移动的n多种方式,解决缩写挑战以及了解不同产品提供的功能是极为重要的事情.目前很多供应商提供服务来应对这一挑战,随着新供应商以及老牌供应商扩大其IAM产品范畴,这个相对较新的领域正处在快速发展中. 企业需要全面审核其可能合作的供应商,以确保其非结构化内容能得到处理.另外更复杂的是,安全专业人员都面临着这样的问题:不确定数据在哪里,不确

企业管理的挑战:非结构化数据分析

北京8月23日消息,据国外媒体报道,超市内部怎么设计才能最大限度地提高销售额?表面上,这个问题似乎与数据科学家挨不上边.消费者行为难以量化:因为不可预测并且似乎没有理由.为什么一些购物者在某些通道里呆了比其他人更多的时间?为什么每个购物者在店内行走的路线都不相同?为什么有些商品在上午畅销,但在下午根本卖不出去? 寻找这些问题的答案要靠非结构化数据分析--由于非结构化,这些数据无法整齐划一地输入到数据库或电子表格的行列中.绝大多数商业信息都是以非结构化数据形式存在.这些数据可能来自电子邮件.备忘录

解开非结构化大数据处理与分析的密码

用友UAP的数据平台具备了大数据处理与分析的能力,它主要依靠非结构化数据处理平台UDH(UAP Distribute for Hadoop)来完成.UDH包括分布式文件系统.列存数据库,涵盖分布式批处理.实时分析查询.流处理和基于内存的分布式批处理的分布式分析计算框架类,以及分布式数据挖掘. 在大数据备受关注的今天,企业不能盲从,而是应该明白大数据为什么会如此之热,为什么去关注它.其中一个重要原因就是,大数据不同于普通数据,它增加了很多半结构化数据和非结构化数据,并且其数量级和价值不可同日而语.

企业如何保护非结构化大数据

目前企业已经进入全新的大数据时代.在高带宽.移动的.网络环境中工作和生活的我们,会产生 大量的数据,这些都成为大数据的来源,而这些信息很少存在于同一个地方.在几微秒中,信息就能够发布给世界 各地的很 多人.企业的高管门(包括CEO.CIO.CSO等)都必须面对因为大数据带来的风险和安全挑战,并规划好如何去应对他们.本文将讨论如何 看待非结构化数据相对于传统的结构化数据带来的安全风险和挑战以及多层面防护方法.识别非结构化数据与结构化数据安全保护的差异信息通常被归类为结构化形式的或非结构化形式的.不

MaxCompute与OSS非结构化数据读写互通(及图像处理实例)

0. 前言 MaxCompute作为阿里巴巴集团内部绝大多数大数据处理需求的核心计算组件,拥有强大的计算能力,随着集团内外大数据业务的不断扩展,新的数据使用场景也在不断产生.在这样的背景下,MaxCompute(ODPS)计算框架持续演化,而原来主要面对内部特殊格式数据的强大计算能力,也正在一步步的通过新增的非结构化数据处理框架,开放给不同的外部数据. 我们相信阿里巴巴集团的这种需求,也代表着业界大数据领域的最前沿实践和走向,具有相当的普适性.在之前我们已经对MaxCompute 2.0新增的非

美国数据科学家:重视非结构化数据分析 走出两大“经典”误区

虽然基本上国内大部分公司,言必提"大数据",但是对于大部分CIO.CTO们来说,对数据的分析仍然停留在过去的阶段:对于非结构化数据分析的成熟度还远远落后于结构化数据. 但是现在移动端所带来的爆发式增长给大数据从业者带来了非常大的挑战,这些数据有很多是非结构化数据,充斥了人们交流的空间,相应的,对非结构化数据的分析也变得越来越重要--对非结构化数据进行分析.提取出有价值的东西,成为CIO.CTO们最关注的问题. 但是目前,很多人仍有非结构化数据分析等同于舆情分析的粗暴认知. 非结构化数据