阿里巴巴的野心:大数据搬家记

  高空任务

  自曝其短、奋起补课的事儿还是静悄悄地进行。

  当摄像师不断变换机位寻找最佳视角拍摄时,潘宝坤有点愤怒了。“你们出去!别拍了!等我们做好再回来!”他吼道。

  这一幕发生在1月13日晚,在阿里巴巴杭州西溪园区,一个被称为“DNA项目”的秘密计划正进入最关键的时刻。为了记录关键的场景,阿里专门安排了摄像师跟拍了整个项目的关键环节。偏偏在这个时候,技术后台的代码出了点状况,人人都急出一身冷汗。潘宝坤是当晚技术团队的一员。

  DNA项目的核心是阿里C2C和B2C两大电商交易平台淘宝、天猫对商品SKU(商品统一编号)的底层技术架构更新。它在天猫对商品类目信息重新梳理的“达尔文计划”的基础上延展而来。如果说达尔文计划是一颗苹果,DNA项目则是一棵苹果树,是阿里电商生态系统的生命之树。阿里集团IPO代号不是叫“阿凡达”(Avatar)吗?如果不做达尔文计划和DNA项目,它是不可能成为智慧星球的,马云的外号“外星人”也将名不符实。

  大数据(Big Data)革命在美国有几种典型表现:亚马逊有个性化搜索A9,A即算法(Algorithms)的缩写。Netflix有76897种电影分类,内部叫“量子论”、“微标签”。Facebook有新闻收集系统。潘多拉电台有音乐基因工程。算法是一种神奇的掌握人类消费行为和内心活动的系统,如何将人工分类与机器智能推荐相结合,一直是互联网顶级之战。

  简单理解,每个超市都有很多货架,商品分门别类摆放,如果标签混乱、指向不清,会影响销售效率和购物体验。而作为中国最大的网上商店,淘宝从 2004年5月诞生起,平台上的每一款商品都有一个特定数字代码,2008年在淘宝内部培育的天猫延续了这种技术架构,十年积累,阿里电商体系里的商品已经超过了20亿。与此同时,商品信息的混乱、冗余、不规范越来越明显。

  一个典型的例子:在苹果公司尚未推出iPhone 5c之前,淘宝上居然有人卖绿色版iPhone,“这让人哭笑不得,伤害了淘宝系多年建立起来的信任度。”阿里巴巴共享事业群副总裁王曦若对记者说。

  与美国的eBay、亚马逊相比,淘宝的商品类目基础架构和分类管理不是一开始就标准化的,部分SKU的属性值(如规格、型号、颜色、尺码等)可以由卖家自定义编辑,难免会乱七八糟、混淆用户、甚至发生SKU作弊行为(比如将常规商品和配件辅料、瑕疵品等放在一个宝贝链接里出售)。

  对于淘宝、天猫来说,商品信息数据系统就像基因之于细胞那么重要,它决定着所有线上交易的进化程度:如果类目规范整齐,交易就简单快捷高效,进而推动自我革新;如果系统杂乱无章,玩不了算法和个性化,影响用户体验,甚至给阿里自身拖后腿。今年3月,马云内部邮件称:云和端(Cloud +App)将是未来移动互联网的关键,阿里十年的目标是建立DT(Data Technology),数据时代中国商业发展的基础设施。

  王曦若将阿里从达尔文计划到DNA项目的最后一步操作称为“在飞行着的飞机上换引擎”,来形容重整商品类目的风险之高和压力之大。她是DNA项目的总负责人,带领一个近百人的团队。

  整个项目的关键是底层后台的数据迁移,他们需要将阿里商品信息开发团队做好的全新模型,链接到无时无刻不在使用的淘宝、天猫平台上。而所有这一切,得稳定平滑过渡,不能惊扰卖家和用户。

  商品信息“进化”

  瘦死的骆驼比马大。阿里后台“病了”,商品类目信息出现了“病菌”,但它仍然是中国最大的电商平台,以沃尔玛+亚马逊的模式,以电商、金融和数据平台在中国经济扮演着重要的角色。

  阿里用来整理和存储商品信息的系统是一个树状结构,在内部叫“类目”。作为第三方交易平台,阿里把商品分成70多个大类,在每一个大类下分出很多子类目,子类目下又有一层层的分类。就像一颗枝繁叶茂的大树,在树干分出很多枝桠后,叶子已经难以计数。

  没人否认这套系统的重要性,但即便在阿里内部,对它有了解的人也不多,因为它在技术底层,不直接影响前端交易,不像阿里每年双11的创纪录销售额那样吸引普通人的目光。

  每年双11交易额都刷新纪录的天猫,是阿里集团最先推行“达尔文进化论”的部门。2012年5月,天猫更名刚刚4个多月,就被发现有了“病症”。技术人员通过后台看到,越来越多的买家留言说很难在天猫上找到自己最初想要的商品,无论通过类目(比如服饰、电器、化妆品)还是搜索——这是天猫商品的两大流量入口。要么指向不精准,要么信息过于庞杂,你需要手动翻阅好几页信息页面。

  对于刚刚打响名号的天猫来说,这并不是件可以忽略不计的小事。马云对天猫的期许是,专注做B2C业务的天猫就像挺进大别山的刘邓大军,是整个阿里集团在B2C领域的正面作战部队。“B2C是比C2C更高级的一种零售业态。”原淘宝商城总经理、独立电商分析师黄若告诉记者,B2C平台应该是一个 Shopping Mall,商品丰富而正规,信息透明而规范。

  电商发展早期,商品与信息组合的重要性被忽视。亿欧网联合创始人、电商分析师黄渊普对记者说,随着商品数量增加,其组合方式是电商精细化运营最重要的体现之一。同样的商品有多种信息描述,既浪费各方资源,很多时候也助长了商品的不实宣传。电商平台方有必要把类目规范化,这是电商购物回归产品本身,促进公平竞争的必然措施。

  王曦若着手让团队一点点去核查,试图厘清到底是哪个环节出了问题,最终商品信息的不确定性被定性为核心问题。他们发现,即便是在天猫上,同一款商品的信息也未必相同,比如一款绿色的保温杯,有的卖家描述为“淡绿色塑料保温杯”,有的则是“浅绿色塑胶保温杯”。

  “某种程度上,天猫已经不像个Shopping Mall了。”王曦若说。天猫的商品信息延续了淘宝的风格,由卖家填写,天猫只负责简单审核(商品基本属性准确以及符合法律法规),这就造成了商品描述五花八门,在后台的“仓库”不便管理,前端“柜台”信息混乱,买家找不到想要的商品,卖家销售库存管理日益繁杂。

  王曦若把问题报告给时任天猫总裁张勇。张勇在高层会上说,一定要把问题尽快解决掉。他们花了几个月调研讨论,张勇拍板决定启动信息重整项目,但当时还没起名字。“要不就叫达尔文计划,代表着我们商品信息的一种进化?”王曦若的提议得到赞同。

  阿里共享事业部派出了两个团队负责达尔文计划的运作。天猫产品部的何家琼被抽离出来,组织了一个10人团队,叫“达尔文基础运营团队”。2012年8月,他们从手机和化妆品两种相对简单的商品开始,正式启动达尔文计划。

  从天猫开始

  习惯一旦养成很难改变,更何况你动的是利益。阿里先在天猫而不是在淘宝做商品类目重整,就考虑到它平台上大多是知名品牌入驻,调整和规范的成本相对低,不至于扰乱淘宝的卖家信息海洋。

  2012年8月,在天猫的后台系统,手机和化妆品卖家都看到了一则关于达尔文计划的公告,详情及需要卖家怎样配合。如同总裁张勇谨慎的行事风格,天猫该项目运作也小心翼翼。运营团队先进行调研,一是对淘宝天猫卖家和买家数据收集,内部也与阿里负责类目的管理者(俗称“小二”)沟通,二是向国外同行亚马逊和eBay学习,三是对淘宝十年来经验总结。

  闻思图书专营店店主温兴歌曾经为这样的问题纠结:某一本书的内容既涉及商业故事,也属于旅行见闻,到底放在商业子类目下好卖,还是放在旅游子类目下更好卖?达尔文团队围绕一个基础的问题开展:某个商品的类目理想中应该是什么样子的。他们讨论这些差别,一步步涉及到最基础最琐碎的问题:为什么商家会放错类目?商家什么情况下会设置错的关键字?每个商品的颜色、尺码、款式都用一串独立的数字来表示,为什么还信息混乱?……

  天猫的运营团队给平台上手机和化妆品类目的前10名卖家打电话,介绍正在进行中的达尔文计划,征得对方同意后,抛出一系列问题:商品的材质是什么?一共有几个型号?多少种颜色?一般每个月生产多少销售多少?放在天猫仓库又有多少?……“这些看似不太相关的问题,命中的才是商品最核心的信息。”何家琼说,商品信息最终是为交易服务。

  第一轮商家调研完成后,天猫团队坐在一起总结,得出一个令他们震撼的结论:天猫的类目结构已经远远不能满足行业的发展状况了,很多商品早就更新换代,或者丰富了款式型号,类目却还是2008年最初建成的样子。

  他们一鼓作气开了卖家沟通会。2013年初,温兴歌从浙江金华赶到杭州,在位于西湖国际大厦的天猫办公室参加了图书类目的卖家沟通会。会场有20多个图书经销同行,一个天猫图书小二,一个达尔文基础运营团队成员,一个记录员。“讨论的话题是以后我们怎么填写图书信息。”温兴歌说。以前都是卖家自由填写,天猫简单审核即可。现在天猫提出他们会为每一类商品设置多种属性,让卖家进行选择而不是自由填写,比如给名人传记设置框架,中国的还是外国的,男人还是女人,政治的还是商业等,卖家在选项里勾一下就行。

  因为这涉及到未来自家店铺的生意,卖家们都畅所欲言,提出种种可能的困难或建议方案。他们也反驳天猫的某些做法。“套装书”就曾陷入讨论僵局。天猫认为有统一条形码、版权页上印着丛书名的系列书才算套装书,卖家们则坚持可以自由搭配,把两三本好看的书组合在一起就行,无需考虑是否同一出版社、条形码或系列丛书。温兴歌把不同出版社出的《育儿圣经》和《睡前胎教故事》组成套装卖后,两本书销量都比以往增加近30%。

  沟通会效果明显。天猫图书的子类目调整成既有天猫定义的套装书,也有卖家自由搭配的“自由组套”。毕竟天猫是个交易平台,达尔文计划在规范商品信息的同时是为了提升交易效率和品质。这种既要规范有序、又不影响交易销量的做法,在其他类目后来的操作中也不时出现。

  王强在天猫经营一家海尔授权网络店,是最早参加达尔文计划试点的商家之一。比起以前上架新商品需要自己费尽心思去填写商品描述信息,现在从天猫的库中直接调用,“我只要填价格、库存数量等信息就可以了,对天猫店的维护更简易了。”

  但由于品牌卖家的定位营销策略不同,他们对达尔文计划反应也不一致。何家琼就遇到一个问题,耐克和阿迪达斯对天猫商品描述的要求有不同意见:在耐克的商品描述中,一个商品下面既有尺码选项也有颜色选项,而阿迪达斯的只有尺码选项,如果要标识颜色,代表商品属性的是另外一串数字。

  “这背后有销量的博弈。”何家琼说,在淘宝天猫的搜索因素中,销量占很大权重,核心表现就是按照商品的销量自动排序。以慢跑鞋为例,耐克慢跑鞋的销量是其各种颜色之和,阿迪达斯慢跑鞋则是按红色、蓝色、紫色等不同销量各自呈现。在阿里平台有个现象:用户搜索“慢跑鞋”时,耐克因其销量高出现在较为靠前的页面,阿迪达斯则会靠后。

  两个品牌都是天猫的重要卖家,何家琼不敢掉以轻心,亲自给对方负责人及前5名的专营店卖家打电话沟通。耐克希望达尔文计划继续保持原来的商品描述方式,阿迪达斯则分成两派,官方旗舰店希望商品描述和阿迪达斯官网保持一致,不同颜色的商品有不同的属性值;专营店卖家考虑销量,希望取消颜色属性值,让买家在统一款号的商品下自行选择颜色。

  目前,达尔文团队还没想到合适的方案来解决这个问题。何家琼的设想是,对于服装服饰等非标准化商品(非标品),也许可以放开一些弹性空间,天猫负责较大比例的类目管理,卖家根据自身情况进行个性化类目描述。耐克和阿迪达斯两家天猫旗舰店负责人拒绝就此发表意见。

  改变搜索逻辑

  2013年,天猫陆续完成了对数码、家电、手表等标品,服装、化妆品、农产品等非标品的类目重新调整。

  普通用户感受到的是在天猫购物更快速准确了。王曦若说,“如果用户的搜索信息足够明确,我们甚至能提供唯一符合要求的商品。比如输入iPhone 5s,搜索页面中心只会出现一款手机,不再有手机壳、配件等无关信息,为用户们节省大量时间。”

  如此精准的推送来自天猫搜索系统的一套数据算法。当用户输入iPhone 5s时,搜索后台会找到天猫卖家所有的iPhone 5s手机,根据销量、人气、价格、顾客评价等算出综合得分最好的一个,系统再次评估后推送给用户。这是一套相对公平的算法,面向所有卖家和用户。

  在类目之外,搜索是天猫最大的流量入口。过去5年,天猫搜索依赖的是模糊词汇,“你输入一个关键词,后台系统会帮忙匹配很多商品,只要这些商品的标签中含有这个关键词。”天猫产品运营部产品总监胡秋根对记者说。他是天猫搜索业务的负责人,在达尔文计划运作过程中,搜索也配合商品信息的改变有了突破。

  模糊词汇匹配的好处不言而喻:尽可能“一网打尽”把相关的商品展示给用户。“余杭区的马小姐想找一件真丝无袖连衣裙,理论上她只要输入这7个字,不管翻多少页,她都能从中找到自己想找的那一件。”胡秋根说。

  这其实是历史遗留问题,跟天猫前期商品信息的模糊混乱息息相关。达尔文计划使天猫补上了商品类目规范和升级的课,阿里愈加在大数据应用上领先京东、当当、苏宁等竞争对手(这三家拒绝接受采访)。如今在天猫,你搜索一件商品,其展示结果从原来的成百上千件,变为聚合成确定的一件或几件。

  “搜索逻辑的变化对卖家影响很大,让很多卖家改变了运营逻辑。”以前很多卖家为了销量,会为商品添加很多标签,现在天猫更青睐推送信息精准的优质商品,卖家们尽力运营好某一款或几款主打商品。“爆款”在天猫将成为过去时。天猫搜索不再推送多种同款商品给用户,达不到卖家们跟风的效果。胡秋根说,“这也更加符合天猫的定位,这个平台的核心竞争力是品牌,而不是只以销量取胜。”

  “釜底抽薪”

  当达尔文计划逐渐开花结果时,一项更有价值、同时也更有难度的项目也同时交错在开展。它触及的是整个阿里电商平台的底层数据,是阿里发展大数据业务和未来DT目标的根基。

  2013年2月,这个项目由阿里共享事业群的商品技术开发平台团队提出。该平台负责人赵营苗告诉记者,从持续使用十年的经验来看,淘宝平台的“树形结构”对于卖家和买家都简单易用,但是随着环境变化,越来越多的新商品出现,有的难以归类,这棵“生命之树”不再强壮如初,“也就是说,现有的结构类目已经跟不上行业的发展了,跟时代比起来落伍啦。”

  阿里运营部门的梳理结果更夸张。“除了国家法律政策规定不能交易的,枪支弹药毒品不能卖,在淘宝上,你注册个卖家账号,什么都可以卖。”DNA项目运营负责人朱春勇说。赵营苗承认,“这就是我们的商品数据库模型出了问题,改变迫在眉睫。”

  在阿里大数据委员会会长车品觉看来,这不是阿里一家公司的问题,整个电商行业其实都存在商品信息管理的难题,在传统零售行业,这也是至关重要的一环。“大数据应用中最重要的三个因素是数据的可实时性、数据的可解释性和数据质量的准确稳定性。DNA项目涉及的是商品信息的准确稳定性,对于阿里大数据应用来说是基础而且重要的步骤。”

  2003年5月,淘宝创立10周年,每个部门都对业务做了大梳理。历经两三个月,商品开发团队拿出了可行的整体项目方案。他们决定先从手机、3C产品、数码配件、酒类、保健品5个类目开始,“相对其他要迁移的69类商品来说,这些类目商品数据相对标准和规范。”

  但意义如此重大,项目开展时间却迟迟未定。在阿里内部,价值观和企业文化影响每个员工,“让天下没有难做的生意”是统一口号,但是每个业务线都有自己的业绩任务,短期内并不一定合拍。从一开始,DNA项目被各个部门接受的程度也不一样。

  时任天猫总裁的张勇看完方案提了两点意见:天猫将支持项目的进展,但此项目不能开展于2013年11月11日之前。后一条用意很明显,双11是天猫最重要的消费节点,这一天的交易额代表着阿里交易业务甚至中国电商市场的繁荣程度。万一DNA项目出现任何差错,都会让这一天的阿里颜面扫地。

  时任淘宝负责人张宇也表态支持项目开展,她认为此事对于淘宝系的交易平台至关重要,但有冲突的是,她希望保持淘宝的强势,比如能够整理清晰的类目一定要做到规范标准,但对于暂时理不清的类目,她希望从淘宝剥离出去的天猫能够遵循淘宝的规则。

  阿里的搜索、广告、聚划算等业务部门的意见也各自不同。特别是广告部门,年底要冲业绩,极力希望大搬家推迟。最终,王曦若和赵营苗的团队用了两三个月时间,说服集团高层拍板决定2014年初启动DNA项目。

  朱春勇带领的运营团队是2013年5月加入DNA项目组的。彼时移动互联网船票战争夺已经火热,腾讯的微信如日中天。淘宝系的后台体系是以PC端为基础构建的,整体结构谨慎安全,但在以轻和快为标准节奏的移动互联时代,它显得繁琐和沉重。朱春勇说,“我们希望未来淘宝的商品信息架构是轻便和灵活的。现在人人都可以是电商卖家,比如我家院子有棵石榴树,可能就是一瞬间的想法,我用手机拍下来,发到淘宝上去卖。”

  DNA项目团队有30多人,分为两批:一批是对商品或者卖家比较熟悉的人,及时和卖家沟通,把商品相关行业的现状和趋势摸透,为技术后台重构数据库做准备;另一批是对淘宝系产品比较熟悉的人,他们有良好的技术背景,做过产品经理,能从产品和用户体验方面对新的商品数据库提供意见。

  淘宝的类目数据梳理也交给了朱春勇的团队。在看似完备的类目体系上,他们发现了诸多琐碎问题,比如材质为牛皮的商品,有女装,有男装,有包,有鞋等,这些类目之下的牛皮属性值都不一样,商品数据就因此多出几串不必要的数字,把整个商品数据库撑得庞大冗余。“把这些混乱的数据整理出来,在技术层面是很难实现的。我们都会人工去做,人肉输入和整理。仅仅这项工作,就花费了整个团队半年多的时间。”

  接下来,他们跟行业专家交流,还跟商标网、国家物品编码中心等专业机构交流,要把淘宝系商品信息做得既有数据化属性,又符合国家和行业规范。卖家的意见也非常重要。每一类的商品信息数据化之前,运营团队都会联系这类商品卖家集中的区域,做一两次集中访谈。

  2013年12月25日,圣诞节,阿里西溪园区布满圣诞树和彩灯,很多员工放假回家过节,但阿里DNA团队却没有这项“福利”,DNA项目最后也是最重要的环节——更换技术后台将于2014年1月13日晚正式启动,他们必须加班加点。

  阿里的野心

  孔柏汉的神经一直处于紧张状态。从2013年12月25日开始,他所在的小组开始负责淘宝商品数据订正,也就是把整个类目的商品属性值进行重新更改和修订。在操作期间,卖家不能在后台发布或更改商品信息,但买家可以正常交易。然而一旦订正失误,整个类目系统都会瘫痪。

  整个淘宝系共有20亿商品,每个商品都有自己的独立代码,一旦出现两种商品代码一致,可能整个类目都会冻结瘫痪。赵营苗说,如果发生这种情况,就会影响到前端用户的交易,这会是很严重的事故,必须做好各种预案,没人敢掉以轻心。这不仅仅与阿里整个平台有关,更关系到数百万的淘宝系卖家、超过5亿的注册用户,一定不能出问题,“一定要把这个飞机引擎换好。”

  1月13日之前,齐国梁所在的5人小组负责技术底层风险点的梳理。阿里集团涉及交易的20多个业务部门梳理出来300多个风险点,齐国梁小组的任务就是拿出规避这些风险的预案。“到了1月13日,我们的风险点梳理工作完成,又立即投入数据迁移。”

  好在这场不为人知的硬战顺利完成。1月13日到1月30日,历经每晚从7点到次日早晨7点的奋战,手机、3C等5大类目的数据迁移全部完成,而且没有一次影响平台前端的购物交易。阿里的生命之树换上了部分新的血液。

  2月12日下午,杭州下了2014年的第二场雪,阿里商品开发技术平台团队所在的5号楼“九天阁”会议室,王曦若拍着赵营苗的肩膀说:“哥们,今晚开始又是一场硬战,让兄弟们加油啊!”

  12个日以继夜的紧张过后,商品开发技术平台团队终于松了口气。赵营苗站在DNA项目会议室,对满脸倦容的20多个员工说:“兄弟们,回家睡觉吧,我们完工啦!”

  至此,淘宝20亿商品的信息数据迁移全部完成。“从用户的角度来说,这个项目还暂时感受不到变化。我们第三个阶段就是修订子类目,项目完成后,用户在使用搜索和类目时就会有新体验,到时候淘宝商品将一改繁杂混乱的状态,以一种相对整齐、规范、清新的姿态出现在用户面前。”赵营苗说。

  阿里并不止于做达尔文计划和DNA项目,更有野心打造整个中国电商行业的标准商品体系,甚至有一天淘宝天猫的商品信息库不仅服务于自身,也可以服务到站外,服务到愿意拥抱互联网的传统企业。朱春勇说,“比如有一个卖家,他在线下有自己的品牌、专卖店、工厂,同时他也代理别的品牌,他可以做淘宝集市 C2C,他也可以给天猫供货,他可能还走京东、当当的渠道……其实整个互联网目前没有一个统一的商品标准。我们做DNA的愿景,就是建立一个全网甚至线下都能用的统一的商品信息体系。”

  达尔文在其进化论的代表作《物种起源》里写道:“芽由于生长而生出新芽,这些新芽如果健壮,就会分出枝条遮盖四周许多较弱枝条,所以我相信,这巨大的‘生命之树’在其传代中也是这样,这株大树用它的枯落的枝条填充了地壳,并用它的生生不息的美丽的枝条遮盖了地面。”

时间: 2024-10-30 19:23:20

阿里巴巴的野心:大数据搬家记的相关文章

阿里巴巴张勇:大数据是新商业时代的原油

12月9日,封面传媒将邀请"互联网之父"凯文·凯利到成都开启一场巅峰对话,带我们一起遇见未来.在正式对话开启之前,封面新闻邀请了一些互联网大佬,聊一聊他们对未来科技的思考. 阿里巴巴早在2009年就开始大规模布局大数据和云计算技术.阿里巴巴CEO张勇更是把数据比喻成"新商业时代的原油".阿里巴巴集团刚刚公布的2017财年第二季度财报显示,阿里云付费用户数量增长至65.1万,推动收入同比增长130%,达到14.93亿元.对于大数据的快速发展,凯文·凯利也认为,大数据时

【重磅】阿里:大数据搬家记

文章概述:作为中国最大的电商集团,阿里巴巴一直善于自省自查.大数据革命的旋风吹到中国,让阿里巴巴得以机会发现自己脚下土地的松动.按照"数据基础决定上层建筑"的逻辑,阿里巴巴祭出一系列数据迁移和优化项目--重塑阿里电商生态系统的生命之树正破土生发.然而,"釜底抽薪"般的大动作可是需要拿出十万分的谨慎和耐心-- 高空任务 自曝其短.奋起补课的事儿还是静悄悄地进行. 当摄像师不断变换机位寻找最佳视角拍摄时,潘宝坤有点愤怒了."你们出去!别拍了!等我们做好再回来!

阿里巴巴西湖品学大数据峰会观后感

会上没有提到太多高大上的算法和模型,更多的是在商业社会中如何把大数据应用起来.总的感觉这次会议的主题是"数据+商业",也就是如何让数据在商业社会中产生价值.这个topic非常广泛,远远超过了一般互联网盈利模式(广告+游戏)的范畴.对于我们做大数据的朋友来说也是一样的,过去我们经常提到的搜索引擎.计算广告和推荐系统基本上最常见的大数据应用场景了.但是随着大数据与商业社会的结合,产生了需求新的玩法. 阿里巴巴数据委员会会长车品觉提到了美国在大数据领域的顶级会议strataconf,提到了现

阿里巴巴等组建大数据打假联盟 将定期公布打假信息

1月16日上午消息,在阿里巴巴的倡议下,"大数据打假联盟"在杭州成立.阿里巴巴与首期入盟的约20个创始成员发布<共同行动纲领>,依托大数据和互联网技术,将定期公布打假信息. 阿里巴巴首席平台治理官郑俊芳(花名"灭绝师太")认为,数千年来假货绵延不绝,并且出现全球化蔓延的趋势,而传统的线下打假方式显然难以根除假货源头,"线下假货'打而不绝.越打越多',我们唯有团结一切可以团结的力量才有胜利的希望". 据了解,阿里巴巴大数据打假联盟采用定

信息图:一张图看懂阿里巴巴十年大数据

以前,我们用算盘;现在,我们用云计算.以前,你搜啥我们给啥;现在,不用搜我们就知道你要啥.以前,你卖房买服务器;现在,一顿饭钱你就上云.以前,出门吆喝半天才能卖出一块炊饼;现在,点一下鼠标就知道哪里最好卖.

阿里巴巴大数据竞赛结束了第二赛季的比赛

90后队伍"Marvel"队夺得冠军,获得了阿里巴巴20万元现金奖励.据了解,此次阿里巴巴向参赛选手开放了天猫真实用户4个月的5.7亿条脱敏数据.如果以北京市2000万人口换算,此次阿里巴巴开放的数据量相当于所有北京居民连续访问天猫一个月的数据量.而此次夺得冠军的"Marvel"队,其成员一位为93年生人的北京航空航天大学在读研究生,一位为89年生人的中国科学院大学在读研究生.据 阿里巴巴方面介绍,此次阿里巴巴大数据竞赛为阿里巴巴的首届大数据竞赛.第二赛季的题目是&

阿里首度公开大数据系统架构《大数据之路:阿里巴巴大数据实践》来了

絮絮叨叨了很久,说阿里数据要出书.每天被催,什么时候写好,什么时候出版.终于,千呼万唤始出版了!!!! 点击阅读详情,即刻试读!!!   曾鸣教授作序 CSDN.ChinaUnix.ITPUB.segmentfault多家技术社区联名力荐 阿里巴巴官方首度公开大数据系统架构与技术细节 <大数据之路--阿里巴巴大数据实践>预售了 书籍内容简介 在阿里巴巴集团内,数据人员面临的现实情况是:集团数据存储已经达到EB级别,部分单张表每天的数据记录数高达几千亿条:在2016年"双11购物狂欢节

阿里巴巴大数据将帮助法院办案

文章讲的是阿里巴巴大数据将帮助法院办案,近日,在浙江省高级人民法院里,能看到很多有趣的数据,比如:女性撑起了超过六成的网购市场,但"败家女"的地位并不稳固,因为"大叔"和"正太"是网购人数增长最快的群体;另外,在杭州开车最好躲开东坡路,因为那里是危险驾驶最频发的区域,当然,也最好躲开"别克"车,因为醉驾者中,开"别克"车的最多-- 这些都来自于浙江省高级人民法院和阿里巴巴共同打造的大数据专题. 11月24日

阿里巴巴大数据:女生胸越大越“败家”?

今年夏天,数据分析师在对阿里巴巴内衣销售数据分析后发现,购买大号内衣的女性 往往更"败家".在将这些内衣购买者的消费数据进行整理后,分析师发现,65%B罩杯的女性属于低消费顾客,而C罩杯及以上的顾客大多属于中等消费或高消费买家.事实上,在阿里巴巴每天上百万的订单量中隐藏着许多类似的大数据.今年双11,阿里巴巴最多每分钟收到285万单交易信息,总销售额高达93亿美元.这展现了阿里巴巴强大的数据处理能力.阿里巴巴副主席蔡崇信表示,这只是冰山一角.阿里巴巴对数据的利用率不足5%.这些数据将让