2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办的 2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014) 将在北京新云南皇冠假日酒店拉开帷幕。大会为期三天,以推进行业应用中的大数据技术发展为主旨,拟设立“大数据基础设施”、“大数据生态系统”、“大数据技术”、“大数据应用”、“大数据互联网金融技术”、“智能信息处理”等多场主题论坛与行业峰会。由中国计算机学会主办,CCF大数据专家委员会承办,南京大学与复旦大学协办的“2014年第二届CCF大数据学术会议”也将同时召开,并与技术大会共享主题报告。
本次大会将邀请近100位国外大数据技术领域顶尖专家与一线实践者,深入讨论Hadoop、YARN、Spark、Tez、 HBase、Kafka、OceanBase等开源软件的最新进展,NoSQL/NewSQL、内存计算、流计算和图计算技术的发展趋势,OpenStack生态系统对于大数据计算需求的思考,以及大数据下的可视化、机器学习/深度学习、商业智能、数据分析等的最新业界应用,分享实际生产系统中的技术特色和实践经验。
其中,本次大会的“大数据应用”分论坛邀请到了CCF大数据专家委员会委员、蚂蚁金融服务集团大安全安全智能部总监/资深数据专家陈继东,分享“大数据分析在网络安全与欺诈风险管理中的应用”。
在本次大会召开之前,CSDN和陈继东针对大数据技术趋势及他的演讲内容进行了一次简单的沟通。陈继东一直专注于大规模数据管理及分析方面的研究和高级开发应用,使用过Greenplum、MapReduce、HBase、Hive、Kafka、Storm和Spark等多项技术,目前重点关注分布式实时图架构、实时CEP复杂事件管理等应用。他认为,当前金融级的安全和风控系统,挑战还在于对海量数据的实时处理能力。
在12月14日的大数据应用分论坛上,陈继东将重点分享蚂蚁金服的大数据风控体系,如何基于海量的用户行为和关系网络数据进行预测性分析和建模,实现交易和账户风险的预先识别;以及蚂蚁金服最新推出的安全云服务产品 - 安全宝,如何利用大数据帮助银行等金融机构管理各种欺诈风险。点击报名,与陈继东面对面沟通!
陈继东
蚂蚁金服大安全安全智能部总监/资深数据专家,CCF大数据专家委员会委员
陈继东博士,现任蚂蚁金融服务集团大安全安全智能部总监/资深数据专家,负责基于大数据的支付宝账户安全防控和交易风险管理体系,曾任人人游戏大数据研究中心首席数据科学家,EMC中国研究院大数据实验室主任,一直专注于大规模数据管理及分析方面的研究和高级开发应用,特别是面向移动互联网和金融风险管理的大数据分析。陈继东于2007年获得中国人民大学计算机应用博士学位,2012年从复旦大学计算机学院计算机科学与技术博士后流动站顺利出站,2012年底加入中国计算机学会(CCF)大数据专家委员会,在大数据分析相关领域先后申请了5项美国专利和2项中国专利。
陈继东采访问答整理如下:
关于大数据实践
CSDN:请首先介绍一下您公司的业务,大数据对公司业务的价值,以及您部门的职责?
陈继东:蚂蚁金服以小微企业和普通消费者为主要用户,建立以数据、技术、服务这三个开放平台为核心的金融生态,支持和帮助合作伙伴,共同为用户创造价值,旗下业务包括支付宝、支付宝钱包、余额宝、招财宝、蚂蚁小贷及筹备中的网商银行等。大数据是蚂蚁金服的核心,从数据化运营到运营数据,建立以数据为核心的信用体系。
安全智能部主要通过对海量的用户行为和关系网络数据进行预测性分析和建模,通过大数据风控体系实现交易和账户风险的实时监控和预先识别。同时通过安全数据产品,实现在DT(Data Technology)时代下金融云平台中安全云服务,帮助商户、银行及其他第三方金融机构解决网络风险和欺诈问题。
CSDN:您本人曾经在不同的企业担任数据科学家,能否介绍您在项目实施中曾使用过哪些大数据技术?您对这些技术满意的地方和不满意的地方分别有什么?
陈继东:我使用过多种主流的大数据技术,包括:MPP Database如Greenplum;Hadoop生态中的MapReduce,HBase,Hive;Kafka,Storm,Spark等。
使用这些技术的综合体会:
满意:大规模离线数据分析,准实时数据查询和分析,流数据处理的优势很明显。 不满意:1)缺乏分布式系统架构和海量数据挖掘的融合系统;2)缺乏海量图数据挖掘所需要的实时分布式图框架和系统。
CSDN:大数据在您所在的行业落地目前主要遇到哪些困难?
陈继东:这也是我对上述技术存在不满意的原因,金融级的安全和风控系统对海量数据的实时处理能力要求极高:
需要高性能、高可靠性和高可用的大规模实时计算基础架构,例如毫秒级实时数据采集,传输,计算及分析等数据处理闭环; 需要灵活可配置,弹性可扩展的模型和规则平台,支持实时事件处理和变量计算,分布式规则引擎,在线和离线模型开发与部署; 需要海量分布式图框架来支持海量图数据上的实时查询和实时分析挖掘。
CSDN:根据您的经验,企业容易犯哪些错误导致大数据项目失败?
陈继东:以下几个常见的认识误区,将会让大数据项目付出代价:
盲目追求数据的“大”,而忽略数据的质量,数据的时效性,不同数据的融合; 过分追求单一技术如Hadoop,期望能解决所有大数据处理的问题; 过分追求通过大数据重构原有系统,大而全的大数据体系和战略,不考虑如何从原有数据库架构到新的大数据架构迁移。
关于大数据技术趋势
CSDN:大数据领域的新技术发展很快,从整个大数据产业来说,您认为哪些技术趋势值得关注?
陈继东:当前的大数据处理技术有很多,包括海量数据的批处理,实时流计算,交互式查询分析,分布式内存,图计算框架等。相对于某一个系统和工具,我更看好完整的大数据生态系统,比如Hadoop和Spark开源生态圈,一方面包含了从数据获取,存储,处理,存取到上层分析和可视化等数据生命周期的各个环节,以及元数据管理和工作流等任务。
另外,大数据深入分析(如预测分析)的需求将催生新一代实时大数据分析平台,能够真正将数据存储管理(分布式存储和SQL)和挖掘分析(并行机器学习)等有机集成,形成一个统一的端到端的方案。
CSDN:针对您所在的行业,哪些技术是您目前主要观察和研究的,您为什么看好这些技术?
陈继东:从蚂蚁金服的角度,目前的关注点主要包括:分布式实时图架构,实时CEP复杂事件管理,大数据安全和隐私,大数据价值评估,大数据创新应用。
我认为,大数据的未来在于更广泛的从不同数据源中整合各种数据后加以分析和利用,从传统的零售,媒体到金融,到更多新的领域,基于数据挖掘出更多的知识和洞察。数据的质量,数据安全以及数据的开放性思维将是未来大数据分析中主要的挑战!
关于大数据人才
CSDN:人才对大数据项目的成功实施也很重要,您在大数据团队的建设方面有什么经验可以分享?
陈继东:大数据人才应当需要分析能力与工程能力相结合、分析能力与业务能力相结合:通过应用驱动的大数据分析实践,来培养大数据人才,数据分析和挖掘需要具备很强的业务理解和商业能力,同时培养一定的工程实现能力。
CSDN:您认为优秀的数据科学家需要哪些素质?如果有大学毕业生立志成长为数据科学家,您对他有什么建议?
陈继东:我理解的数据科学家是一类集业务和商业理解,数据分析与挖掘,分布式系统于一体的综合性人才。对于毕业生而言,从应用实践出发,从最简单最枯燥的数据清理和业务学习开始,逐步培养分析和挖掘能力,锻炼更敏锐的数据和业务感觉,才能使用数据的思想解决实际问题,创造出价值。
关于BDTC
CSDN:请谈谈您在这次大会上即将分享的话题。
陈继东:我的议题是大数据安全与风控:面对数以亿计的账户和交易,如何在这些数据中甄别出极小量的高风险数据,并且结合业务理解和数据分析,对账户、交易中的风险实现预先识别,在盗用交易前及时判断风险,防止盗用的发生,这是大数据和安全最重要的结合点。我将分享如何建立数据驱动的风控体系,以实现从传统的账户密码验证方法向基于海量用户行为分析和预测的账户风险识别方法变革!
CSDN:哪些听众最应该了解这些话题?您所分享的主题可以帮助听众解决哪些问题?
陈继东:适合互联网金融从业人员特别是风控分析人员、数据分析和挖掘工程师,以及互联网安全分析师和工程师,能够帮助他们了解如何使用大数据进行欺诈风险识别与管理,如何对交易和账户风险进行建模分析,基于大数据风控系统的需求。
CSDN:请谈谈您对BDTC2014的一些期待?
陈继东:这是一场国内外大数据技术领域顶尖专家与一线实践者云集的盛会,将深入讨论大数据技术的最新进展和实践经验,我个人非常期待先进的实时大数据分析基础架构,创新的大数据分析应用的分享。
全国大数据创新项目评选活动目前正在如火如荼进行中,详情点击这里。
2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014)将于2014年12月12日-14日在北京新云南皇冠假日酒店召开。传承自2008年,历经七届沉淀,“中国大数据技术大会”是目前国内最具影响、规模最大的大数据领域技术盛会。本届会议,你不仅可以了解到Apache Hadoop提交者Uma Maheswara Rao G(兼项目管理委员会成员)、Yi Liu,以及Apache Hadoop和Tez项目管理委员会成员Bikas Saha等分享的通用大数据开源项目的最新成果和发展趋势,还将斩获来自腾讯、阿里、Cloudera、LinkedIn、网易等机构的数十场干货分享。 当下门票团购还有些许优惠, 预购从速。
免费订阅“CSDN大数据”微信公众号,实时了解最新的大数据进展!
CSDN大数据,专注大数据资讯、技术和经验的分享和讨论,提供Hadoop、Spark、Impala、Storm、HBase、MongoDB、Solr、机器学习、智能算法等相关大数据观点,大数据技术,大数据平台,大数据实践,大数据产业资讯等服务。