阿里巴巴的大数据梦:数据分层次开放 保护个人隐私

作者: 南方周末记者 谢鹏 实习生 庞航宇 发自:北京

为了迎接即将到来的大数据时代,各大互联网公司都在争分夺秒。阿里巴巴在公布大数据分享平台之后的半年中,也全面启动了攻势。但即使是这个行业的先行者,离大数据时代也还有不小的距离。

刚刚过去的2012年,秦予有个很大的遗憾,就是没能招聘到自己想要的数据科学家,浪费了公司给的招人名额。他是支付宝用户价值创新中心的负责人。这个中心是支付宝大数据业务的核心部门。

阿里巴巴2012年的进人指标只有200个,具体到支付宝公司,基本是只出不进,只有秦予所在的部门得到了难得的两个进人名额。但她只招到了一个合适的。

事实上,各大互联网公司都在寻找这样的人。腾讯网络媒体事业群总裁刘胜义2012年年中就公开表示:随着用户各类数据的累积,大数据时代已经来临。腾讯各大产品线中都拥有自己的数据挖掘团队。而腾讯最新财报显示,QQ用户数接近8亿人,活跃用户数近2亿人。

阿里集团2012年7月10日就已宣布,设立首席数据官岗位(CDO),负责推进“数据分享平台”战略。同日,阿里发布“聚石塔”平台,为天猫、淘宝平台上的电商及电商服务商等提供数据云服务。

阿里巴巴集团表示,如何挖掘、分析和运用这些数据,并和全社会分享,是这个战略的核心所在。阿里巴巴是年交易额过万亿元的中国最大的电子商务平台,目前有两万人左右,其中近千人从事数据业务工作。

可以看到,从数据中掘金,已经成为各大互联网公司的共识。但在这个即将到来的大数据时代,这些公司具体将如何推进呢?

“离大数据时代还有不小距离”

秦予要找的并不是一般的数据分析师。

“国内不缺数据挖掘人才,但很难找到数据科学家。”秦予对南方周末记者说,秦予的团队有7个人,他们在支付宝内部被称为“数据科学家”。

一般的数据分析师是根据支付宝的各种数据进行分析,给公司决策层和各个业务部门提供咨询支持。这也是目前很多公司都设有的商业智能部的主要职能。但数据科学家们做的事情是开发出具体可以销售的商用化的大数据产品。

所谓大数据,一般是1000T以上的数据,如果按照一般机器配置,相当于400台到500台电脑。对这些数据信息的商业化开发就是大数据产业链。

《大数据时代》一书中提到,未来,数据将会像土地、石油和资本一样,成为经济运行中的根本性资源。数据科学家被认为是下一个十年最热门的职业。

而大数据跟个人最为密切的关系是对隐私的可能侵入。比如,亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,微博似乎对我们和我们朋友的关系无所不知,QQ圈子能给你推荐你不愿意再见面的某个女生的照片和动态信息。

秦予是从美国归国的计算机模拟博士后,在摩根大通和汇丰银行工作过多年,2010年加入支付宝公司,负责支付宝和淘宝集市的大数据业务。支付宝公司拥有中国仅次于银行业的个人数据信息。

“阿里巴巴有海量的数据,对于做大数据的人来说,阿里巴巴是中国最好的平台,很吸引人。因为我的金融背景所以选择支付宝。”秦予对南方周末记者说。

回国进入大数据行业之后,秦予参加了很多大数据的论坛和研讨会,她最大的体会是,看到的新东西很少。

“别说大数据,连小数据都很少。现在很多公司说的大数据,大都是数据的搜集和整理。这是底层的工作。”秦予说,“中国离大数据时代还有不小距离。”

即使是作为国内大数据业务的先行者阿里巴巴,其大数据业务发展也依然是分散在各个子公司,并在2012年下半年才开始推出少量的商用产品。

“从人出发,先去找人”

支付宝曾经在八年前公司成立第二天就建立了数据部门,但真正有大数据业务,是在2010年的事情。正是那时候,支付宝从招商银行信用卡中心招来一批专业的金融人才。秦予也是那时候加入支付宝的。

“金融行业的大数据业务已经很成熟了。”秦予说。

支付宝的数据科学家每天做的工作就是,把客户分成50个族群进行研究。比如,细分出都市轻熟男群体,这个群体的特征是每次买的不贵,均价七八十元,收入中等,但很喜欢在网上买东西。

还有一个族群被称作“千金美少女”,其特征是收入并不高,但家里有钱,买得多,买得贵。

按照分群研究的思路,秦予的团队把淘宝、天猫、支付宝和聚划算的用户做系统研究,通过观察他们喜欢看什么媒体,上什么网,来“生动地”知道用户是个怎样的人,进而推荐商品供用户购买。

能识别用户之后,在写商品推荐文字的时候,不再是过去那样千篇一律地使用“亲”作为开头。

“今天很多网站犯的错误就是,根据个人购买记录,推荐一个类似的产品。其实用户很可能买过了。用户要的是你给他推荐一个跟他相似的人买的东西。”秦予对南方周末记者说,以前的数据研究思路是从产品出发,大数据时代是从人出发,先去找人。

支付宝发展大数据业务,目前主要是为内部服务。比如,过去支付宝很重视新客户的获取,但后来发现开账户的人多,关账户的人也不少,通过数据分析,支付宝建立了一个流失预警模型,预测每一个人未来三个月是否会离开支付宝,并对潜在的流失用户做一些唤醒。

“支付宝是准金融行业,数据比较敏感,涉及用户隐私,还没有到开放的阶段。”秦予对南方周末记者说,支付宝非常忌讳提供商用化产品给商户,很多合作方惦记着的是支付宝的数据,但这是支付宝的高压线。

“支付宝发展大数据的目的,跟淘宝和天猫有点偏差。我们更多地是为内部服务,淘宝和天猫更多地强调商业化。”秦予对南方周末记者说,阿里巴巴集团的大数据业务商用主要是淘宝平台的几个公司在推进。

(责任编辑:蒙遗善)

时间: 2024-07-31 04:55:30

阿里巴巴的大数据梦:数据分层次开放 保护个人隐私的相关文章

南方周末:阿里巴巴的大数据梦

文章讲的是南方周末:阿里巴巴的大数据梦,"为了迎接即将到来的大数据时代,各大互联网公司都在争分夺秒.阿里巴巴在公布大数据分享平台之后的半年中,也全面启动了攻势.但即使是这个行业的先行者,离大数据时代也还有不小的距离." ▲阿里巴巴正在从数据中掘金 刚刚过去的2012年,秦予有个很大的遗憾,就是没能招聘到自己想要的数据科学家,浪费了公司给的招人名额.他是支付宝用户价值创新中心的负责人.这个中心是支付宝大数据业务的核心部门. 阿里巴巴2012年的进人指标只有200个,具体到支付宝公司,基本

如何获取阿里巴巴的大数据能力?

平台定位 图一 数加平台的定位 面对不同的用户,数加平台定位也各不相同.对于开发者而言,它是一站式数据采集.加工和应用的平台:面向企业用户,数加平台提供了影视.金融.电商.交通.通用等行业解决方案:面向服务商,数加平台提供的更多是行业内先进的技术引擎.开发平台,丰富大数据应用经验. 产品概览 数加的产品大致分为三层,在座的各位会比较关心最上层的数据应用,刚才大家体验的智能语音交互就是其中之一,后面还会给大家介绍其他几个智能工具.除了成熟的数据应用之外,中间还有两个开发平台,一个是算法开发的平台.

阿里巴巴将大数据引入快递业

文章讲的是阿里巴巴将大数据引入快递业,随着电商改变着我们的消费模式,"通达系"也成为普通人熟知的公司.原本"通达系"有"四通一达":申通.圆通.中通.汇通和韵达,这五家企业都起步于浙江桐庐,它们之间有着千丝万缕的联系.汇通在2011年为马云收购,走上不同的发展道路;其他"三通一达"的发展模式颇为相似:它们每年高速发展,淘宝件 占到公司业务的六成左右,公司旗下的网点甚至不少分公司都是加盟商所有. "三通一达"

颠覆传统的中兴微模块数据中心 开启中小企业的大数据梦

自麦肯锡提出"大数据"之后,大数据一词被越来越多的提及,特别是随着互联网和信息行业的快速发展,大数据已经成为继云计算.物联网之后IT行业的又一个革命.面对大数据带来的冲击和其背后蕴含的巨大能量,几乎所有企业都开始意识到数据的重要性. 但是,面对呈倍数式的增长数据量,绝大多数企业的IT架构和基础设施难以承受如此大数据量的激增.因此,建立数据中心就成为为企业数据资源提供存储.运算处理场所,帮助企业在大数据竞争中占有一席之地的必然选择.不过,在大数据面前,似乎只有那些大型IT公司.金融企业有

MIT实验室主任:可穿戴设备的大数据梦

文章讲的是MIT实验室主任:可穿戴设备的大数据梦,"我并不带可穿戴设备,因为现在他们并不能给我真正所需要的信息."8月31日,在以"大数据开启大未来"为主题的第三期百度the BIG talk上,MIT人类动力实验室主任,可穿戴设备先驱,全球七大权威大数据专家之一阿莱克斯·彭特兰(Alex Pentland)认为,可穿戴设备的未来,不是衡量自己,而是要测量你和其他人的互动. 苹果iWatch将成可穿戴设备转折点 据媒体报道,苹果将在9月9日召开的产品发布会上同时宣布

十年磨一剑阿里巴巴的大数据

"在未来,数据将会像土地.石油和资本一样,成为经济运行中的根本性资源."随着技术的迅猛发展,人类的数据也在以指数级增长,带来了海量信息.阿里巴巴就抓住了大数据中的机遇. 近日,阿里巴巴董事局主席马云在内部邮件中提出,要在未来十年建立DT数据时代中国商业发展的基础设施.而在此数月之前,阿里巴巴总参谋长曾鸣在长江商学院也作了一次关于互联网的演讲.在演讲中他提出,互联网最重要的关键词之一就是大数据. 目前,在阿里巴巴数据平台事业部的服务器上,已攒下了超过100PB已处理过的海量数据-也就是1

阿里巴巴的大数据够大吗?

阿里巴巴(Alibaba)借助余额宝进军资金管理业的尝试迄今为止可以说大获成功.不过外界一直想了解的是,余额宝是如何运作的? 余额宝吸引人的一点是给客户提供了等同于活期存款的方便,客户可以随时支取账户里的资金,同时还能获得与理财产品或定存单(CD)等其他更长期限存款相当的收益率,而CD通常需将资金锁定3-6个月. &http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;                图为天猫商城一家网店位

从数据仓库到大数据,数据平台这25年是怎样进化的?

" 从「数据仓库」一词到现在的「大数据」,中间经历了太多的知识.架构模式的演进与变革.数据平台这25年究竟是怎样进化的? 我是从2000年开始接触数据仓库,大约08年开始进入互联网行业.很多从传统企业数据平台转到互联网同学是否有感觉:非互联网企业.互联网企业的数据平台所面向用户群体是不同的. 那么,这两类的数据平台的建设.使用用户又有变化?数据模型设计又有什么不同呢? 我们先从两张图来看用户群体的区别. 用户群体之非互联网数据平台用户  企业的boss.运营的需求主要是依赖于报表.商业智能团队的

马云谈大数据:数据时代的“五个新” 做好准备

马云,1964 年9 月10 日生于浙江省杭州,1988 年毕业于杭州师范学院外语系,同年担任杭州电子工业学院英文及国际贸易教师,1995 年创办中国第一家互联网商业信息发布网站"中国黄页",1998 年出任中国国际电子商务中心国富通信息技术发展有限公司总经理,1999 年创办阿里巴巴,并担任阿里集团CEO.董事局主席.2013 年5 月,辞任阿里巴巴集团CEO,继续担任阿里集团董事局主席.6 月30 日,马云当选全球互联网治理联盟理事会联合主席.2016 年5 月8 日,马云任中国企