沃尔玛大数据技术真相

  曾创造了"啤酒与尿布"的经典商业案例的沃尔玛是最早开始投资和部署大数据应用的传统企业巨头之一,通俗得讲,大数据天然不是沃尔玛,但沃尔玛天然是大数据。

  在大数据概念引爆流行产业界之前,沃尔玛已经开始了网站数据库整合迁移和Hadoop集群扩展工作,收购Kosmix,在此基础上建立Walmart Labs,并在近年着手收购专注于数据挖掘或移动社交的初创公司如OneOps、Inkiru,Tasty Labs,OneRiot,进军互联网。

  沃尔玛希望通过大数据应用让消费者成为bigger spender,同时在电子商务领域奋起直追领导者亚马逊。

  通过自身数据积累整合及并购研发,沃尔玛已然拥有一个涵盖消费者线下交易数据、沃尔玛网络商城电子数据与社交媒体应用数据为一体的实时更新积累的大数据库,为沃尔玛在做出决策前,将执行成本降到最低,并且创造新的消费机会。

  可以虚拟一个场景来讲沃尔玛的数据操作:

  Sam,是沃尔玛的资深会员,其近五年来购买商品的品种、数量、型号、时间信息,支付方式信息,商品配送信息,会员卡信息,住址、联系方式,甚至包括Sam在沃尔玛的购物流程监控视频、门禁数据等线下消费信息都已被沃尔玛的信息系统详细记录。

  当Sam近日再一次驱车来到最近的沃尔玛大卖场时,刚进入停车场,Sam的手机或者iPad等移动终端的沃尔玛App可能已经收到购物清单上百分之八十以上商品的推荐信息和电子优惠券信息,App上还按商场流程标注了每件商品的具体位置、型号信息,沃尔玛测试中的“Scan and Go”的系统未来允许Sam用手机扫描商品,然后收银台手机扫描支付。而移动支付完成的瞬间,沃尔玛已经在数据端开始更新Sam的相关消费信息,并开始预判Sam下一次购买比如牛奶和啤酒等商品的时间和数量,并提交数据给APP推荐业务。

  另外,Sam很喜欢一款899美金威尔逊网球拍但没有加入扫描清单,球拍旁边的塑胶运动模特脑袋里边的摄像头记录下了他的一举一动,包括Sam的停留时间,拿起网球拍的次数及观察端详球拍的视角,甚至他是左手握拍还是右手握拍等等,而第二个月,Sam的手机推送信息中已经有了沃尔玛推荐的性价比更高的一款Babolat轻碳球拍。

  在Sam案例风光的背后,是沃尔玛实验室及相关团队在维持其大数据工作。Walmart Labs着手整合了沃尔玛旗下网站,将试点Hadoop数据节点正式集群扩展,把分散存放在Oracle、Neteeza、Greenplum等数据库中资源统一存入Hadoop数据仓库,并尝试进行内部数据共享分析。通过开发大数据工具加载交易数据,体量相对较小但结构化程度较高的线下零售数据结合电子商务网站数据为前向购物选择预测提供了基本支撑。

  2000年网上商店作为应景产品上线,但ebay和亚马逊让沃尔玛认识到电子商务的可怕,便在随后几年开始发力线上。Walmart Labs 推出的 The Social Genome 能够让沃尔玛将消费者线下购物数据、网络浏览点击数据、社交网络关系数据及消费者个人数据等组合成实时更新扩展且具有定向预测功能的强大数据库,逐步解决线上环节与线下渠道数据匹配上的难点,并借助于消费者在社交网络上展现的兴趣,预测他们可能在Walmart下一个购买的产品。

  通过对社交网络进行深度的数据挖掘,实现网站主页、商品搜索个性化,依据消费者的兴趣来排列页面上的结果。数据显示,截止到13年1月31日,沃尔玛全球互联网销售额增长30 %增幅十年来第一次超越亚马逊。

  接着讲Sam的沃尔玛购物故事:

  月末Sam车被借走了,所以选择去沃尔玛的网上商城,cookie自动登录后显示自己上一次登陆沃尔玛网店是在六个月前。Sam的首页推荐上有会员八折的罐装威尔逊网球,还有新款特价的全钢西门子榨汁机,Sam会心一笑:邻居Peter在twitter上抱怨自家的榨汁机真垃圾,自己前天点了赞,沃尔玛竟然知道了!随后Sam发现自己的facebook上的唯一关注音乐人Robbie Williams的新专辑就在眼前。

  另外,自家附近的一家健身房年卡正在打折出售,Sam摸摸肚子上的赘肉一咬牙把年卡加入了购物车,心里还抱怨沃尔玛你TM怎么都知道这么多。

  实际上,沃尔玛电子商城的消费者线上数据如浏览商品种类时间,购物车状态及支付方式,搜索记录等都将结构化然后汇入全球统一的Hadoop数据仓库,半年前Sam通过Polaris搜索引擎寻找网球拍的数据已经为沃尔玛实体店通过APP给Sam推Babolat轻碳球拍做好了准备。沃尔玛的线上大数据已经能够为其线下营收带来销售增量。

  收编Kosmix团队,沃尔玛看重的是Kosmix对社交媒体的语义分析功能,利用Facebook和Twitter的数据,工程师从每天热门消息中,推出与社会时事呼应的商品,创造消费需求,同时,针对社交网络快消息流的性质,沃尔玛内部的大数据实验室专门发展出一套追踪系统,结合手机上网,专门管理追踪庞大的社交动态,每天能处理的资讯量超过10亿笔。

  沃尔玛资讯中心副总经理特瑞尔指出,“沃尔玛本身就是一个海量资料系统,适用各种商业上的分析行为”。媒体称沃尔玛拥有将近七成美国人的相关消费数据,八成以上的境内邮箱信息。通过其强大数据库的算法推荐和预测方案,个人消费数据能够预测一系列的高敏感个人信息,沃尔玛将清楚地知道你是谁,你要买什么,甚至你下一步要干什么。

  由于缺乏个人信息保护意识,很多有色,低收入,边缘化社区人群个人数据信息受到大数据商业计划侵犯,而弱势人群在沃尔玛的数据标签化分类中很容易被识别区分出来,遭受弱歧视化待遇。

  大数据会随着数据的结构化和规模化滚动雪球,越来越“大”,越来越“快”,这个世界上最大的零售商在利用数据技术追逐利润的同时也逐渐引起人们的担忧:

  科技在带来商业大发展的同时会不会催生出类似《一九八四》中的Big Brother 2.0。

  注:本文首发iDoNews 专栏,转载请注明来源和出处。

时间: 2024-10-30 07:34:38

沃尔玛大数据技术真相的相关文章

与主流同行,参加2014中国大数据技术大会的十大理由(议题攻略)

从2008年仅60人参加的技术沙龙到当下的数千人技术盛宴,作为业内极具实战价值的专业交流平台,已经成功举办七届的中国大数据技术大会忠实地描绘了大数据领域内的技术热点,沉淀了行业实战经验,见证了整个大数据生态圈技术的发展与演变. 12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所与CSDN共同协办的2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014)将在北京新云南皇冠假日酒店如

七牛开发者最佳实践日开启第一站 全方位揭开流媒体技术真相

 想要深入了解移动时代下最具实践性的技术干货么?想在创业过程中快速解决技术难题顺利打造产品么?如果你是开发者,欢迎8月31日跟七牛云存储一起走入广州,开启"开发者最佳实践日"第一站,全方位揭开流媒体技术真相. "开发者最佳实践日"是由七牛云存储发起并联合业内技术达人,专为开发者举办的系列技术实践沙龙.它关注开发者在实际应用中可能遇到的技术问题.致力于为勇于创新的开发者们提供行业内最前沿最热门的技术干货,以技术驱动应用创新,打造技术服务交流平台,共建时下热门技术生态链

媒体该如何应对“大数据”技术?

2011年,西方有关"大数据"(big data)的理论像旋风一样席卷知识界,大数据的学术讨论接连不断.媒体火热的爆炒,各种危言耸听的结论,充满种种迷思,谷歌上竟有13多亿条这方面的报道和言论.我国IT业和新闻界也开展了探讨,并发表多篇文章,西方的"数据驱动新闻"(data-driven journalism)."数据决定话语自由"(allowing the data to speak freely)的说法在国内流行起来.许多文章声称,媒体如不谙

中央财经大学创新创业中心主任尚超:大数据技术在防范虚假发票中的应用

ZD至顶网CIO与应用频道 01月20日 北京消息: 2016年1月20日,数据猿作为独家全程直播与专访媒体,受邀参加"全球大数据峰会 Global Big Data Conference 简称为 GBDC"本届大会由世界O2O组织.全球大数据联盟GBDC.全球移动游戏联盟GMGC.光合资本主办,中国互联网协会O2O工作组.中国汽车流通协会支持. GBDC全球大数据峰会在北京国家会议中心举办,本届大会规模逾3000人.大会从大数据改变政务管理方式.引领全球企业营销.智能交通综合服务.互

2014中国大数据技术大会圆满落幕

2014年12月12-14日,作为大数据领域最具影响.规模最大的IT盛会--2014中国大数据技术大会暨第二届CCF大数据学术会议在北京新云南皇冠假日酒店圆满落幕.大会历时三天,以国际化的视野,分享了海内外大数据技术的发展趋势:从技术与实践角度探讨"大数据生态系统"."大数据技术"."大数据应用"."大数据基础设施 "等新技术应用和实践经验:通过创新大赛和培训课程等特色活动,解密大数据创业热点,分享行业实战经验.2014中国大

大数据技术在发展 挑战与机遇并存

大数据技术是在传统数据处理手段无法应对海量数据的实时需求的情况下,采用新的信息技术来应对大数据爆发进行数据处理的技术.大数据技术一般可以包括基础架构支持.数据采集.数据存储.数据计算和数据展现交互等. 大数据技术的分类 大数据技术涵盖的范围十分广阔.基础架构支持方面主要包括了支撑大数据处理的基础架构级数据中心管理.云计算平台.云存储设备及技术.网络技术.资源监控等技术.而为了处理数据,则需要有大规模物理资源的云数据中心和具备高效的调度管理功能的云计算平台的支撑. 数据采集技术方面包含了数据采集的

115期:在线大数据技术峰会回顾合集!

本期头条   票选最美云上大数据暨大数据技术峰会上,阿里云飞天一部计算平台高级专家无庸为大家带来题为"高可用大数据计算服务如何持续发布和演进"的演讲.本文先对MaxCompute架构进行了介绍,接着重点介绍在大数据计算服务下,高可用服务持续改进和发布的工具,包括Playback工具.Flighting工具和灰度上线.细粒度回滚等,点击查看. • [资料合集]在线大数据技术峰会:讲义PDF+活动视频! • 提速1000倍!阿里率先采用Intel Optane SSD • 东京见闻:快速走

【资料合集】在线大数据技术峰会:讲义PDF+活动视频!

回顾大数据技术领域大事件,最早可追溯到2006年Hadoop的正式启动,而环顾四下,围绕着数据库及数据处理引擎,业内充斥着各种各样的大数据技术.这是个技术人的好时代,仅数据库领域热门DB就有300+,围绕着Hadoop生态圈的大数据处理技术更是繁花似锦.然而着眼当下,大数据在行业内的实际落地仍然不是件简单的事情,大数据创业成功的案例更是少之又少. 1. MaxCompute 2.0 性能优化揭秘 演讲视频:http://yq.aliyun.com/webinar/play/188 PDF下载:h

超越,不止于技术-数据技术嘉年华第一日盛况报道

首先登场的是Oracle副总裁 Peter吴总,在嘉年华大会阐述Oracle的云战略和数据库自治,Oracle 认为云成为企业的创新力,简化管理唯快不破,18c 自治数据库正是对核心组件的简化,而机器学习替代人力,处理大数据也正是智能时代的核心诉求之一. 蚂蚁金服专家颜然,在数据技术嘉年华大会分享Oceanbase的数据库创新,在双11支持了25.6万笔每秒的交易量,OB因为高可用架构可以将两阶段事务做到一阶段相应的性能,基于内存的undo缩减,内存缓存的高压缩比,高磁盘效率. 中国联通软件研究