一场变美盛宴后面的大数据故事

小红唇和阿里云大数据平台的牵手要从2016年5月份说起。随着小红唇业务的发展,用户量和内容量不断增加,迫切需要推出个性化功能,增加用户的使用时长和用户粘度。对于一个没有大数据/机器学习经验和技术储备,并且开发人员有限的年轻团队,在业务快速发展的情况下,如何在非常有限的开发资源和不影响正常业务开发的前提下,快速建立起自己的推荐系统,成为摆在小红唇技术团队面前一个不小的挑战。

 

小红唇的技术团队在收到产品关于个性化推荐的需求后,开始了技术调研,其中包括了主流的开源技术栈和阿里云在2016年年初发布的数加平台。两位毫无大数据技术背景和经验的工程师并行化工作,都希望能快速切入到大数据的核心并快速产出。于是小红唇和大数据的第一次邂逅就这样不期的开始了,如同相亲,在众多的对象中,怎么找到合适的那一位一定是故事里精彩的部分。在这第一次邂逅的比赛中,调研阿里云数加平台的工程师只用了一天时间,就利用阿里云数加平台的推荐引擎搭建起了推荐系统,该系统使用了业界流行的协同过滤算法,基于最新的用户对短视频的行为,计算出推荐列表。而另一位工程师还在熟悉陌生的大数据技术栈和编程语言。这第一次与阿里云大数据平台的邂逅堪称完美,在对仅用一天时间就搭建起来的推荐系统稍作修改,并设计了如何嵌入到自身业务系统中后,个性化推荐就和其他普通业务需求一样,在产品提出需求后的第一个发版中就快速上线了。整个推荐系统中数据采集,数据清洗,推荐计算以及结果获取如下图1所示。

 

图1. 推荐系统架构图

 

在这个架构中,我们选择了非常流行的开源
ETL 工具来对用户行为,物品,用户等推荐系统依赖的数据进行清洗,并按照推荐引擎要求的格式同步到大数据计算服务中。由持续集成工具
Jenkins 触发数据的清洗和上传到
ODPS(MaxCompute的前身)中。推荐系统从大数据计算服务中获取数据并进行离线计算,计算的结果存储于阿里云的表格存储中,用于在线计算的结果二次处理和返回。业务服务器通过推荐系统暴露的推荐接口获取对某个用户的推荐列表。我们是数加平台推荐引擎的第一批内测用户,得到了数加平台的大力的支持,使得真个推荐系统的接入都非常的顺利,也解答了很多关于大数据和推荐系统的小白问题。小红唇的团队在和数加平台的推荐引擎团队合作中快速的学习了大数据和推荐系统的相关知识,可以说是阿里云的推荐引擎为小红唇技术团队开启了大数据这扇神秘的大门。

 

这个架构简单清晰,但也有着很多不完美的地方,特别在数据的采集和清洗方面,还显得比较初级和脆弱,首先用户行为数据完全依赖了在APP中的埋点,而埋点的最初的设计也存在了一些问题导致数据缺失。另外,推荐引擎没有一个很好的触发机制,通过外部的持续集成工具
Jenkins 的触发,在初期有时会遇到推荐引擎系统不稳定的问题,导致离线计算失败,用户的推荐列表没有得到及时的更新。

 

随着推荐系统的上线,小红唇也开启了大数据之旅,得益于数加平台完整的大数据计算和应用设计,小红唇的技术团队在熟悉和上线推荐系统的过程中,也逐渐收获了大数据的核心理念,对大数据完整技术栈也有了更深的认识。

 

2016年是小红唇快速发展的一年,随着业务的不断增长,各种产品、市场运营活动的设计和决策也需要有各种各样的数据作为支撑了。于是在快速上线了推荐系统之后,摆在小红唇面前的另一个大数据挑战就是搭建自己的数据仓库。

 

在推荐系统的建设中,小红唇技术团队也意识到阿里云数加平台在普惠大数据理念上的前瞻性,整个数加平台产品线的布局对于像小红唇这样的初创公司,在大数据实践上是容易实现弯道超车的。

 

数据仓库的重要性毋庸置疑,在云计算和大数据时代,数据仓库的建设也在不断的进化中。开源生态中基于Hadoop/Hive搭建数据仓库的成功案例不胜枚举。数加平台基于MaxCompute(原ODPS,https://www.aliyun.com/product/odps)的强大计算能力,也正是对这一理念的完美诠释。于是小红唇技术团队也在横向对比之后,毅然决定在数加平台上进行数据仓库的建设。

 

小红唇基于数加平台的数据仓库搭建分成了两个阶段。第一阶段由于主要的业务服务器并没有部署在阿里云上,使得数据的采集和清洗变得比较麻烦,跨网的数据传输和备份,各种周期任务比较复杂。如图2所示。

 

图2. 第一阶段数仓架构

 

在第一阶段的数仓建设中我们已经在计划业务服务器向阿里云搬迁了,所以把数据需求最紧要的数据做了向
ODPS 的同步(同步方式也有用
DataX 和
ODPS 的
tunnel),在数据开发IDE中对数据进行ETL和OLAP,产出BI报表。
另外还有一些数据会应用到业务系统中,我们通过
RDS 进行存储。

 

在数据仓库第一阶段的建设和使用中,我们已经在积极的筹备业务系统向阿里云的搬迁。随着搬迁的完成,我们也迅速开始了第二阶段的改造。同时更多的数加产品也在不断的内测和发布中,借助于新的产品和上下游的不断打通,我们的架构也进行了演进,如图3所示。

 

图3. 第二阶段数仓架构

 

第二阶段与第一阶段主要的区别就在于数据采集和清洗部分是否直接纳入在数加平台内部,而对于数据仓库的建设而言,这两个环节又是非常重要的部分。在第二阶段中,我们的业务数据库已经在阿里云的RDS上了,通过DataIDE
就可以方便的把需要的数据同步到大数据开发平台中,这也是小红唇目前的架构。在把数据采集,数据清洗,数据开发和数据应用形成完整闭环后,小红唇在大数据领域的各种尝试和产出得到了巨大的发展:

 

首先,我们基于数据仓库的方法论在数加平台上建设的数据仓库,通过简单的命名规则就构建起各种层级和维度的数据,依赖MaxCompute(原ODPS,https://www.aliyun.com/product/odps)的强大计算能力,和简单的SQL处理语言,小红唇技术团队只有一名数据工程师就能快速生产出各种数据,以支撑各种BI报表。

第二,流计算的引入,提高了小红唇业务的实时表达能力而又没有增大开发成本。对某些业务还起到了异步,解耦和降级的作用,大大降低了对线上已有的复杂业务的影响,因而降低了开发和维护成本。

第三,与机器学习算法平台PAI的对接也帮助了小红唇技术团队在机器学习等高难度领域大数据应用的探索,比如我们尝试了训练回归模型对用户上传视频的打分,还有对文本的处理聚类等。

第四,基于统一的数据存储和计算,我们通过对用户的特征抽取,开发了自己的一套基于内容的推荐模型(通过用户对内容的行为,在ODPS中通过SQL/MR的计算生成用户特征,通过
DataX 存储在
OTS 中,在实时的计算中获取并对用户进行基于兴趣的内容推荐),和阿里云推荐引擎一起,为用户提供个性化内容,也取得了不错的效果。同时也在智能搜索方面做了初步的尝试。

 

当然,小红唇在数加平台上的大数据实践也并非一帆风顺,期间也有对于产品理解和数加平台自身的一些问题,比如初期大量的数据搬运和同步工作掣肘了业务的快速开发,MaxCompute(原ODPS,https://www.aliyun.com/product/odps)提供的算子不太丰富,需要自行开发udf(MaxCompute2.0将会有巨大的改进,同时更多的上下游产品被打通),初期数加平台和其它上下游产品打通不够等等。但是数加平台强大的计算能力和完整的产品布局对小红唇的业务扩展和决策支撑起到了关键的作用。

 

技术的不断进化和升级需要匹配业务的水平和规模,对于小红唇这样的初创企业,背靠阿里云强大的平台,能够快速应用新技术并得到价值的转化,实现弯道超车,并不断完善自身技术架构和能力,在不断的创新中得到发展。

时间: 2024-10-19 11:55:56

一场变美盛宴后面的大数据故事的相关文章

大卖场等实体零售如何利用大数据

大数据我们已经谈了很多年,但是真正能做好的没有几家,特别是实体零售在运用过程中遇到了各种各样的问题.为此,联商网新零售顾问团邀请了部分资深业内人士,组织了一场线上沙龙,讨论超市大卖场等实体零售到底如何利用大数据. 雷俊杰:保定杰出便利店董事长 微信:leizi_ming 说起今天话题,很有感慨,本人愿意就出互联网软件开发和一些新颖的科技类的事物.在跟张陈勇等交流中也学习了很多东西.大数据我认为他是一个应用技术,更是一种思维.在零售行业运用上非常的宽泛,由于我们本身是经营者不是开发者,在商业运用上

美媒:关于“大数据”的五大误解

文章讲的是美媒:关于"大数据"的五大误解,美国<外交政策>杂志网站5月9日刊登微软研究院首席研究员.麻省理工学院公民媒体中心客座教授凯特·克劳福德的一篇文章,文章说,"大数据"是当前的时髦术语,是技术界用来解决世界上最难处理的问题的全能办法. 文章说,这个术语一般用来描述对海量信息进行分析,从而发现规律.收集有价值的见解和预言复杂问题答案的技巧与科学.它也许听起来有些乏味,但是从制止恐怖分子,到消除贫困,到拯救地球,对于大数据的鼓吹者来说,没有什么问题是

应需而变 融易致远----大数据时代,你准备好了吗?

2011年3月11日日本大地震发生后,美国国家海洋和大气管理局(NOAA),通过分析海量的数据,包括陆基. 海岸. 海洋. 海洋生物资源和大气层等的信息数据,仅9分钟后,就发布了详细的海啸预警:NOAA每年的IT预算高达10亿美元,虽然花费巨大,但乐此不疲,因为这些信息关乎生命,这些数据可以拯救生命,改变世界.在这个信息爆炸的时代,面对海量信息,你准备好了吗?大数据时代到来近年来互联网.云计算.移动终端和物联网迅猛发展.日渐 复杂的企业客户信息数据,网店交易记录,视频监控终端产生的信息数据,博客

数据实践之美:31位大数据专家的方法、技术与思想. 导读

  数据实践之美:31位大数据专家的 方法.技术与思想 天善智能 著   前 言 朝阳门和小笼包 2016年3月5日,天善智能在北京举办"数据为王·互联网大数据沙龙"活动.在活动开始前的3月2日,我在家里收到了几本有关大数据相关的书籍,当时还没有弄清楚是怎么回事,后来打电话问梁勇(天善智能创始人之一)才知道这几本书是机械工业出版社华章分社的副总编杨福川寄过来的,代表华章支持我们的线下沙龙活动. 3月5日之后的某一天晚上,我约了杨总编出来以当面表示感谢.3月份的北京还比较冷,那两天风也比

湘鄂情更名中科云网 大数据故事能否支撑股价?

湘鄂情更名中科云网 大数据故事能否支撑股价?昨晚,"餐饮第一股"湘鄂情发布董事会决议公告,决定更名为"中科云网",以更全面.准确地反映公司业务转型.公司与中科院计算技术研究所全面深度合作,发展云服务平台.此次变更公司名称和业务范畴的背后,是湘鄂情与中科院计算技术研究所全面深度合作.公告 提出,公司未来发展方向为,第一,立足大数据,提供云服务平台:第二, 围绕移动互联网,家庭智慧云终端等产品模式进行应用推广,提供优质的新媒体服务体验.成立于1995年的湘鄂情, 经过十

IBM PowerAI编程大赛Q2场来袭!探秘金融语料大数据识别

6月17日,上海,由CSDN主办,IBM和兴业数金协办的PowerAI人工智能线下马拉松编程大赛Q2场将拉开序幕.本赛季赛题将聚焦金融行业的语料大数据识别,基于人工智能相关技术,计算有关金融场景的信息聚类,将电话银行海量通话内容结构化,并打上各类标签.通过挖掘分析有价值信息,为服务与营销提供数据与决策支持,发现最新的市场机遇和客户关注热点.活动旨在进一步推动人工智能技术在行业领域的落地,贴近生活并与真实案例场景,也是系列赛题内容的一大特色. 截止目前,本轮活动已收到了大量参赛者报名,绝大部分参赛

数据实践之美:32位大数据专家的方法、技术与思想. NO.1 数据化运营的方法论体系

NO.1 数据化运营的方法论体系 张子良 网名胖子哥,混迹IT十余载,好读书,不求甚解.经史子集,诸子百家,一样不通.唯喜老庄之道,凡事随心,顺天应时,无所苛求.术业有专攻,金融和互联网领域数据方向,数据架构.数据仓库.BI分析多有涉猎,所憾无一精通,唯有孜孜以求,继续践行. 从大数据,到互联网思维,有人迷失,有人觉醒,迷失者继续凌乱,而清醒者却开始探索其背后的本质.当喧嚣散去,山还是山,商业还是商业,本质未变,变的只是渠道和方法.互联网与大数据时代,如何回归商业的本质,数据化运营也许不是唯一的

美财政部CIO:大数据好比“奥德赛”

美财政部CIO彼得亚历山大分享了财政部如何从Excel表格中使用大数据技术来提交报表给政府管理人员. 美国财政部门CIO彼得亚历山大(Peter Alexander),已经把财政部门大数据技术使用比作古希腊诗人荷马的史诗<奥德赛>神话. 本周,在CeBIT澳大利亚悉尼举办的2012大数据会议上,亚历山大演讲说,美国财政部的大数据路线图花了十年时间来实现,这就像荷马史诗中讲述的事件一样,内部大数据项目称为古希腊史诗<奥德赛>神话中的奥德修斯. 美国财政部门大数据奥德赛项目持续十年的部

IBM在美国公开赛上的大数据故事

我住在纽约而且我也是在这里长大的,所以对我来说,每年的这个时候都有十分特殊的意义.虽然我不是一个非常热衷的体育爱好者,但是我喜欢看(网球)公开赛,这个比赛在纽约皇后区的法拉盛草地公园举行.自我上高中以来的每年夏天结束时,我就会参加公开赛或者在电视上观看.早在20世纪80年代,我爸爸的公司在路易斯•阿姆斯特朗球场(在当时是中央球场)就有一个球场边箱,每年我们家都会到那里买门票并在第四轮和四分之一决赛时看几场比赛.因此,我每次都能坐在比赛场地的第三排,观看我喜欢的约翰•麦肯罗.吉米•康纳斯.伊万•伦