阿里数据的十年进化

 大数据时代,阿里巴巴集团是最有资本进行烂漫遥想的公司之一,阿里数据平台事业部的服务器上,攒下了超过100PB已“清洗”的数据。

马云曾在2012年公开宣称,“平台、数据、金融”是阿里集团和阿里小微集团未来的指导路线。在此前后,战略布局已经渐次展开:

2010年,推出重整的搜索业务“一淘”,2011年收购数据属性公司CNZZ,近期又接连收购友盟、入股新浪微博和高德,抢占数据源;在物流领域,阿里由天猫主导建设了与各大配送公司对接的“天网体系”,最近牵头成立智能骨干物流网络“菜鸟科技”,构建物流信息数据平台。

阿里数据十年铸剑,如今只是起手开了个局。

十年进化

从报表到分析工具、flash,阿里的数据产品越来越没“数据味”。

从2003年淘宝起步开始,阿里集团数据平台事业部负责人“七公”(本名汪海)就一直在与数据打交道,他的经历勾勒出了这家数据巨人的演变轨迹。

阿里系最早的数据工作自2003年起步,出于业务需求的驱动,起初非常粗糙,无非数据库、IT系统,随后开始统计分析行业的基础指标,比如PV、UV等,当时的淘宝数据部门只有数名员工。

在数据的童蒙时代,淘宝“依葫芦画瓢”,学习当时最大的对手——易趣,当时eBay、亚马逊都已成立成熟的BI部门。恰是与易趣的竞争,推动了阿里的数据应用。据淘宝内部人回忆,易趣曾强势通过排他协议垄断了门户广告资源,迫使阿里将广告投放转向中小网站联盟,由此催生了广告投放精准化分析需求,淘宝的数据团队开始积累流量数据的分析经验。

2004-2005年,淘宝逆转易趣,业务量激增,品类快速扩张,数据量随之跃升。淘宝开始意识到,不能再靠拍脑袋做经营决策了,需要实时观察掌握用户量和交易量的变化,进行精准分析。

2005年,淘宝成立商业智能部门,成为当时淘宝技术研发部门负责人姜鹏的直属部门。这一年,阿里拥有了第一款严格意义上的数据产品——“淘数据”,这是一份经营数据的报表,为各业务公司、部门提供经营报表的检索生成工具。同年,阿里切入搜索、广告业务——两项业务均带有天然的数据属性,成为阿里大数据运营的开端。七公说,由此阿里对数据和应用场景的理解越来越清晰,目的性更明确——搜索帮助消费者更快找到商品,广告则让商家获得更高的ROI(投资回报率)。

2009年,阿里数据开始进入产品化时代。“淘数据”从一个内部报表系统跃升为内部数据统称。2009年4月和12月,商业智能团队又分别开发出可预警的“KPI系统”、服务于业务部门的“数据门户”。

阿里的对外数据产品也浮出水面。脱胎于“雅虎统计”的工具“量子恒道”,为外部商户提供统计分析工具,用于跟踪自有店铺流量、点击、购买等数据的变化。

与数据产品的大裂变同步,2009年,阿里的数据技术架构,开始大变革。此前一年加入阿里出任首席架构师的王坚,一手主导了阿里架构从Oracle商用系统向Hadoop开源平台的迁移。相比IBM、Oracle等商用系统,Hadoop平台的优点是成本低廉,且架构可扩展性极强,全球互联网企业的大规模计算体系多使用该平台。

同年,王坚成立阿里集团研究院,将集团内各公司自行搭建的Hadoop集群统一,开发出“云梯1”系统,以实现全集团所有数据的打通、整合的管理和共享。

这一系列变革之后,阿里最高层提出了“数据开放”。2010年初,淘宝推出“数据魔方”,第一次向市场开放了全局市场数据,这款付费产品成为了大中型商户追捧的数据利器。产品研发发端于阿里数据平台团队对客户的走访。当时,宝洁公司提出,希望了解行业数据,以帮助其经营决策。数据团队的员工提出,与其case by case解决,不如直接产品化,阿里数据的价值出来了!

此后,阿里内部数据产品的开发进入井喷状态。淘宝数据部门开发出“活动直播间”,帮助买家更好地参与促销运营。2011年上半年,“卖家云图”、“页面点击”接连出现。

2011年,现任阿里数据委员会负责人的车品觉加盟支付宝,发现阿里数据产品线存在短板:高层一端数据过多,关联性不强,难以快速进行全局诊断;一线运营一端总抱怨数据不够,数据间壁垒重重,没有进行整合。

于是,车品觉研发了两款产品,一款名为“观星台”,是一个高度可视化的仪表盘,选择最关键的数据在几秒内展示全局运营状况;另一款叫“地动仪”,可以看到用户投诉最多的功能有哪些,甚至可以获取最原始的客服电话录音。随后,车品觉进入淘宝,又开发了两款产品“黄金策”和 “无量神针”。七公领导的另一支数据团队也开发了一系列产品,如 “淘宝指数”,以及2012年“双11”期间推出的“淘宝时光机”。

一家互联网公司数据挖掘业务的负责人评论,从“数据门户”到“数据魔方”,再到“淘宝指数”、“淘宝时光机”,阿里的数据产品从报表到数据工具,再到可视化图片甚至一组flash,看上去越来越没有“数据味”,但是,其对消费场景和行为的洞察却越来越深了。

高速公路与跑车

数据时科学的,数据的取舍、分析维度的选择更像是艺术。

2012年,阿里集团一系列架构调整,重构了阿里数据“达芬奇密码盘”的排序。

阿里云拆分,独立运行;阿里系的数据库和大规模运算资源整合为“数据平台事业部”,由阿里集团CEO陆兆禧亲自掌管;同时成立虚拟组织“集团数据委员会”,车品觉出任首任会长。

王坚领导的阿里云是“密码盘”中的最底层架构,提供基础的运算平台。譬如,阿里自行研发的“云梯2”体系,即建立在阿里云“飞天”架构之上;在此之上,则是七公领导的数据平台事业部,运营阿里集团共享的数据库,各业务公司产生的数据经清洗之后就存储在该事业部的服务器上;再往上即车品觉带领的淘宝网商业智能部门,他们使用数据进行分析。同时,“数据委员会”的成员们分属阿里各业务公司,他们利用七公团队的工作成果进行再分析。

可以这样理解三层架构:阿里云是IasS(基础设施即服务),阿里数据平台事业部是PaaS(平台即服务),而车品觉的团队则是SaaS(软件即服务)。

阿里集团内的数据大多都经过这样的旅程——用户在淘宝上的一个收藏动作,首先在淘宝网的前端服务器上产生一条日志,日志随后被传送到七公团队的服务器上存储,期间经过清洗过程,最后被编入数据库,与其他数据一同被储存在分主题的数据集市。当数据委员会的分析师们进行数据挖掘时,就可能被采用。

目前,数据业务平台已整合了阿里集团的全部数据。此外,阿里小微集团中创新金融事业部(即阿里金融)的数据也与该平台直接相连。

IBM咨询经理陈琪说,大数据概念存在两层结构。一层是人们热议的、不乏科幻感的分析预测能力;另一层则是处理大规模、高并发、高关联性甚至是低价值密度数据的运算能力。

车品觉做的是前者,而七公维护的是后者。

车品觉评论说,七公团队在修建高速公路,而他的团队则在高速路上驾驶跑车,“建高速公路是一个漫长的工程,需要巨大的投入、耐心以及细致。”七公告诉《21CBR》,其服务器上保有的历史数据已超过100PB,且都已经过“清洗”。

“清洗”被两人反复提及,它保障数据的质量,直接关乎大数据运营的准确性。那么,如何清洗数据?首先得让数据“对得上、产生关联”。互联网行业发展迅速且难于规划,通常不断试错、快速迭代,不同部门、业务之间的数据往往难于打通,不少公司各业务甚至连用户cookie、日志格式都不同。阿里或许是幸运的,从2004年起,整个淘宝系的日志格式就已统一。

这仅仅是开始,数据处理的链条极长,任何一个环节出错都会影响后端。车品觉说,数据污染往往有两个原因——采集错误、数据口径不同。前者往往来自于部门协作脱节,如前端业务部门的开发人员改变了页面功能但未及时通知数据部门,那么,相关用户行为产生的数据定义就已失真;后者则更易理解,譬如有的电商公司统计“转化率”只统计用户点击购买,有的公司则进一步考虑点击后是否付费、是否退款。

数据委员会的工作就是要统一集团的统计口径和统计方法,制定关于质量和安全的范式,其成员来自各个业务公司,由车品觉主持规范工作。2013年,他将数据质量和数据安全视为最重要的课题,设置了对应的两个小组。“数据是科学的,清洗过程中的取舍、分析时维度的选择则要靠分析师的修为,这部分不那么科学,更像是艺术。”车品觉说。

其实,参与阿里大数据战略的团队还有很多,如“共享平台事业部”旗下的搜索团队,担负着为集团各部门“清洗”非结构化数据的任务;数据平台事业部下有一支20多人的数据产品部团队,运营着“数据魔方”、“淘宝指数”、“淘宝时光机”等向外开放的数据产品;各业务公司的分析师也都负责各自业务的数据清洗工作。

数据的觉醒

大数据概念不再是“忽悠”,正当“亮剑”时。

车品觉很推崇数据界前辈提出的一段“六字真言”:“对比、细分、溯源”。他认为还要加上一项“趋势”,这是由传统BI领域跃入“大数据时代”的关键一步。人们憧憬的大数据方法论,要求推测未来、洞悉全局、引导决策的能力。

不久前,车品觉曾在一次非正式交流中说,大数据概念目前看来仍是“忽悠”。接受《21CBR》采访时,他特意更正,“忽悠”是指现在的基础,大数据的前提拥有足够的数据、关联性,并具备相对应的运算能力和分析能力。最近几周,他一直在跟BI团队开会,提出要重新定义BI,“今天的BI以后未必好用,并不完全适合未来的数据世界。”

阿里集团整体正以数据作为行动新方向。

早在2011年,时任阿里集团首席人力官、支付宝CEO彭蕾(现任阿里小微集团CEO)就提醒车品觉,要尝试从“数据化运营”转向“运营数据”。

马云谋划的是,庞大数据平台作为信息流的精华部门,与物流、现金流结合,构建闭合且不断外扩的生态体系,除提供内部数据决策支撑之外,甚至可以形成数据的交易平台。阿里数据的分量已不容小视,淘宝系交易额已超过万亿元,其庞大生态中可以实时捕捉经济运行的脉动,阿里研究院每个月会接到好几波各级政府索要数据的要求。近期,不少政府官员前来向车品觉咨询大数据在公共行政管理的应用。

宏大愿景之下,阿里数据团队态势严峻。数据团队应该是CEO直属的战略级团队,如今,车品觉坦言,CEO、管理层的注视让他们感到压力日增。“马云知道数据要耐心养”,但是,高层已频频问及数据业务落地状况, “不能再只是讲故事了,我们到时候必须亮剑了”。

现在,车品觉的团队正加强挖掘内部数据的力度,为数据分析、预判提供更多可靠的参考维度。最近,团队的研究广度已从淘宝系延展到整个阿里系,并已开始考虑向阿里系外部提供数据工具。车品觉让数据产生商业价值的意愿空前强烈,他正积极搜寻机会,希望为合作伙伴提供足以指导决策的数据方案——2013年以前,数据产品提供的多是诊断辅助,现在开始引导决策。

这一计划已有成果出现。杨滔,车品觉团队中的一位数据科学家,他牵头为“聚划算”设计了一套数据工具,预测商品能否成为“爆款”。这款产品参考60多个变量,能输出商品是否爆款、最终销量、库存等数个关键预判数据,可直接作为商品能否参与活动的判断标准。据了解,该产品目前预测的准确度已达到80%以上。

杨滔正琢磨着参考更多维度的变量,将系统应用范围拓展到线上、线下的通用产品,以帮助综合零售企业整体预测实体店和在线渠道的销售和库存状况,直接作用于经营决策。杨滔还在开发一款产品,带有浓烈的“人机对话学习”色彩,通过研究淘宝购物推荐达人的行为,分析其规律,进而改进淘宝系统的推荐工具,提高个性化推荐的能力。

整个阿里系业务中,最为炫目的是阿里金融的小贷业务,这是大数据应用的典型案例,阿里金融数据团队设计的模型综合了信用记录、成交数额等结构化数据,以及用户评论等非结构化数据,加上外部搜集的用电量、银行信贷等数据,可就放贷与否、放贷额度精准决策,其贷款不良率仅为0.78%。

目前,阿里数据分析团队主要使用阿里内部的数据——仅仅这些他们还远没有完全挖掘,然而,车品觉认为,数据产品只有用更多维度进行综合关联比照,才能掌握更为真实的商业动向。阿里的数据支撑团队又一次提前开始“修路”——准备更多维度的外部数据。据透露,七公的团队已开始接入高德等关联公司的信息。

车品觉说,阿里目前已到了大数据的海边,是在国内互联网行业“做得最狠的”,“如果阿里做不出来,中国在大数据应用的进程可能会减速”。


原文发布时间为:2013-12-01


时间: 2024-11-05 14:50:24

阿里数据的十年进化的相关文章

大数据产业“十三五”规划年内或发布 成兵家必争之地

"数据将取代石油,成为未来制造业最大的能源." 马云一句话很形象的概括了数据即资源这一概念.这也表明大数据将从互联网等前沿行业开始渗入近乎所有行业并产生深远影响,同时也正式宣告互联网时代正加速从IT(Information Technology)时代向DT(Data Technology) 时代演进,大数据也成为了 DT 时代新的主旋律. 互金咖获悉,作为引领DT时代的指导性文件,工信部今年内将发布<大数据产业"十三五"发展规划>(下称<规划>

2017年大数据向左走、向右走?且看阿里数据经济研究中心六位大咖怎么看

2016年的市场热点从大数据已经过渡到了人工智能,但大数据.计算能力和算法这三大要素结合在一起才真正造就了人工智能在2016年的崛起.那么,业内专家如何看过去的2016和2017年大数据的发展呢?让我们看下6位ADEC(阿里数据经济研究中心)的特邀研究员的观点吧. 数据隐私界定和保护是焦点 田杰棠 国务院发展研究中心技术经济部副部长 2016年是大数据从探索性应用走向纵深发展的一年,两批共八个国家级大数据综合试验区启动建设,越来越多的行业试水数据分析和应用,一些高校已经开设大数据专业,大数据和人

【玩转数据系列十二】PAI平台深度学习Caffe框架实现图像分类的模型训练

PAI平台深度学习Caffe框架实现图像分类的模型训练 背景 我们在之前的文章中介绍过如何通过PAI内置的TensorFlow框架实验基于Cifar10的图像分类,文章链接:https://yq.aliyun.com/articles/72841.使用Tensorflow做深度学习做深度学习的网络搭建和训练需要通过PYTHON代码才能使用,对于不太会写代码的同学还是有一定的使用门槛的.本文将介绍另一个深度学习框架Caffe,通过Caffe只需要填写一些配置文件就可以实现图像分类的模型训练.关于P

【玩转数据系列十四】如何通过PAI实现云端实时心脏状况监测

背景 我们通过之前的案例已经为大家介绍了如何通过常规的体检数据预测心脏病的发生,请见https://yq.aliyun.com/articles/54260.通过前文的案例我们可以生成一个算法模型,通过向这个模型输入用户实时的体检数据就会返回用户患有心胀病的概率.那么我们该如何搭建这套实时监测用户健康情况的服务呢?PAI最新推出的在线预测服务帮您实现.目前,机器学习PAI已经支持实验模型一键部署到云端生成API,通过向这个API推送用户的实时体检数据,就可以实时拿到反馈结果,做到心脏状况的云端的

揭秘阿里数据中台:双11当日调用超75亿次

"阿里巴巴正在建设数据中台,统一处理集团近千PB数据,每天被扫描的数据量相当于2千万部高清电影.目前对外服务千万商家与其它生态伙伴,对内服务上万名小二,2015年双十一当天平台调用超过75亿次."   4月20日, UBDC全域大数据峰会·2016上,阿里巴巴公共数据平台负责人罗金鹏首次对外披露了在阿里中台战略下,如何推动数据中台落地的个中细节.   据悉,中台战略是阿里巴巴于2015年底首次提出.作为阿里中台战略的核心之一--数据中台旨在对内提供数据基础建设和统一的数据服务,对外提供

干货:解码OneData,传说中的阿里数据中台是如何练成的?

据IDC报告,预计到2020年全球数据总量将超过40ZB(相当于4万亿GB),这一数据量是2013年的10倍.正在"爆炸式"增长的数据的潜在巨大价值正在被发掘,它有可能成为商业世界的"新能源",变革我们的生产,影响我们生活.当我们面对如此庞大的数据之时,如果我们不能有序.有结构的进行分类组织和存储,那么在价值被发现前,也许数据成本灾难已经来临.它犹如堆积如山的垃圾,给我们企业带来的是极大的成本,而且非常难以消费和发掘价值,也许数据更可悲的命运是在价值发现之前它以死去

开发者论坛一周精粹(第十六期):阿里云全球十四个节点评测分析及服务器地域选择攻略

第十六期(2017年7月24日-2017年7月30日 ) 随着阿里云的不断发展,本来首页关于数据中心的图片上只有几个点,而到了现在在海内外均已经部署了非常多的数据中心了,导致小编我为了整理这篇文章,真的是苦不堪言,怎么会那么多数据中心呢! 那么问题又来了,那么多数据中心到底有什么区别?应该如何考虑数据中心的选择?怎么买最优惠? 阿里云全球十四个节点评测分析及服务器地域选择攻略 https://bbs.aliyun.com/read/322581.html 未实名的.com/.net域名即将被暂停

2014 年大数据市场趋势十大预测

大数据是2013年热度最高的技术词汇,这一年大数据市场也实现了高速增长,越来越多的企业开始拥抱大数据解决方案,而随着生态系统的日益成熟,Hadoop也不再是天才技术人员的玩具,而是数据科学家和业务人员手中挖掘数据商业价值的强大"矿机". 如果说2013年只是大数据市场的热身赛和预选赛,那么2014年大数据市场将迎来世界杯盛宴,近日CIO杂志给出了2014年大数据市场十大预测,IT经理网编译整理如下: 预测一.大数据腾云.2014年大数据将从概念走向实用,并与云计算服务整合.例如云计算服

2014年大数据市场趋势十大预测

大数据是2013年热度最高的技术词汇,这一年大数据市场也实现了高速增长,越来越多的企业开始拥抱大数据解决方案,而随着生态系统的日益成熟,Hadoop也不再是天才技术人员的玩具,而是数据科学家和业务人员手中挖掘数据商业价值的强大"矿机". 如果说2013年只是大数据市场的热身赛和预选赛,那么2014年大数据市场将迎来世界杯盛宴,近日CIO杂志给出了2014年大数据市场十大预测,IT经理网编译整理如下: 预测一.大数据腾云.2014年大数据将从概念走向实用,并与云计算服务整合.例如云计算服