浅析阿里数据新能源技术架构(上)

如果大家对阿里巴巴的新闻比较关注,最近可能会频繁听到阿里巴巴谈到“五新”这个词,“五新”中的其中一个概念是新能源。其实新能源就是大数据本身。技术、数据和算法三个方面结合在一起,才可以把数据真正用起来。

大家都知道,Google的数据量是很大的,但是它的数据源本身其实比较单一。以Google search,Google map等为主导,并没有太多和商业有直接相关的数据。

再来看看,Facebook。它更多的是社交行为的数据,缺少出行数据、浏览器数据、或者类似优酷的视听数据。

但是,对于阿里来说,上述的这些数据我们都有。我们面临的极大挑战是:怎么样有效的把这些全域数据融合在一起。

首先我们需要把数据有效地收集起来。我们有一个大数据体系“OneData”(有关OneData的内容,回复关键词“OneData”即可获得)。

把数据有效地收集、存储起来之后,接着要做的就是怎么通过算法把这些数据打通,并且真正有效、智能地把这些数据提炼出来。

数据融合的技术框架

是阿里的一个生态体系图。最底层是阿里巴巴的阿里云,这是我们的一个计算存储框架。上面是阿里妈妈,阿里妈妈是负责整个阿里巴巴计算广告的一个部门,再上面是菜鸟、支付宝和蚂蚁金服。然后是与商业相关的,像淘宝网、天猫、聚划算等等,或者是跟文娱相关的,优酷土豆,还有像阿里旅行,口碑之类的业态。

阿里巴巴数据中台要做的事情是什么呢?

举一个最简单的例子,之前有一个比较火的电视剧《三生三世》。《三生三世》火热上映的时候,与之相关的商品元素,比如饮食或者穿戴之类的商品,也会瞬间在淘宝网上火爆起来。

那么如果我提前就知道某一类人群是《三生三世》的粉丝,我就可以在淘宝网上做非常高效的、准确的定位推广。

阿里数据要做的是:把数据真正打通,深度挖掘数据的价值,为业务创新应用提供数据决策基础和依据。

在真正进入算法之前,我们一定要对数据进行非常认真、仔细地进行清洗过程。俗话说,如果你的数据不清洗,其实就是“learn trash from trash”。所以数据本身一定要做得非常干净。

来看一下架构图。第一个数据层中有各种各样的数据,比如有消费数据,有广告数据,出行数据等等

这些数据层经过有效结合在一起之后,接下来得到这种特征层的提取。
在阿里数据内部,大概有这样几个比较抽象的维度:像账号设立的静态特征,电商行为的特征,或者设备的特征等等。

在特征层之上,我们会有模型层,这里面有基于业务规则的模型,也有其他的例如异常检测,有监督或者无监督的学习,然后特征的联合校验等模型。

因为我们的数据源非常多,因此我们也可以通过部分的数据源验证另外一个数据源,看数据的增长或者留存是否处于一个正常范围。

另外还有一些比较好的方法,比如基于Graph的一些算法,实时的反作弊算法等等。在算法层之上,就是评估层。在评估层内,我们可以判断留下来的数据是否是真正有效的数据。

在上述这些数据层的上面,会有一个应用层,也同时会抽象出一些产品来帮助内部员工或者外部商家进行使用。

所以,整个数据中台实际上是从底到上对数据进行清洗的一个架构。

当我们有了非常干净的数据之后,我们要做的就是把数据打通。我刚才说了,阿里生态体系会呈现出几百个不同的数据源,这些数据源本身的数据量非常大,收集模式也各不相同。

那么我们是如何进行数据之间的融通的呢?

数据联通的技术思考


是我们关于怎么把数据打通的一个技术架构。
大家可以看到,整个技术体系都是,先把数据接进来,再通过一些机器学习或者深度学习的办法(像word2vec,node2vec,TFIDF,归一化等)处理特征层,之后映射到一些比较抽象的高纬度Level(比方说像用户的身份信息,网络的环境相似度,文本的相似度,APP相似度等等)。

抽象完这些特征层之后,我们究竟怎样去判断。

这期间的方法大致可以分为四种有效的办法:

第一、是深度学习的模型。

第二、非线性。

第三、线性。

第四、基于图计算

此外,还有一些强召回,就是比如说用户有相同的账号登陆不同的地方。这些是所谓的强召回,它可以非常准确地被判断出来。弱召回就是基于算法特征层的这些模型,有效地判断出所有信息是否真正属于同一个自然人。

原文链接

时间: 2024-10-14 21:10:35

浅析阿里数据新能源技术架构(上)的相关文章

浅析阿里数据技术架构(下)大规模分布式知识图谱

阿里数据要做的是:把数据真正打通,深度挖掘数据的价值,为业务创新应用提供数据决策基础和依据. 下面具体介绍我们在大规模分布式知识图谱上的技术实践. 为什么需要知识图谱? 大规模知识图谱抽象也是一种图计算.基于大规模分布式知识图谱做了哪些工作?我们为什么要做这样一件事情? 阿里巴巴的生态非常丰富,而丰富的业态背后给我们数据工作者带来的困难就是,我们常常需要接入各种数据,并将他们有效地管理和整合起来,传统的方法,我们可能需要花几个月,投入几十个人做这样一件事情,对数据进行打标. 但是,假设我们已经知

ApsaraDB for Redis,与创客同行:阿里云Redis技术架构简介及后续规划

从单机.集群.容灾.多活等概览阿里云Redis. 设计思想: 稳定性>体验>成本 运维导向:面向FAILOVER 重监控:态势感知,可回溯 重管控:突破规模制约 资源隔离:用户独占资源 技术特点: 无感知热升级,Proxy防闪断:Redis内核so热升级:Proxy链接漂移热升级 全量备份恢复:按时间点备份恢复,游戏滚服利器 容灾:双机房:异地多活for 高可用.高可靠 无缝扩缩容:单机<->集群:云上云下数据搬迁 基于binlog弱网数据同步 内核改进:消除Aof Rewrite

阿里云中间件技术 促进互联网高速发展

本文讲的是阿里云中间件技术 促进互联网高速发展[IT168 资讯]从电商巨头向科技巨头华丽转身的阿里巴巴,正在凭借技术创新受到越来越多的海外关注.春节期间,<麻省理工科技评论>(MIT Technology Review)刊登专题文章报道阿里在中间件技术领域的雄厚实力,并介绍了通过阿里云提供服务的互联网中间件平台,如何为传统企业提供大规模高可用的互联网技术能力,从容应对瞬息万变的市场和业务需求. 文章指出,脱胎于阿里自用技术的阿里云互联网中间件平台(Apsara Aliware)能够提供企业级

互联网技术架构给我们的启示

据阿里官方公布的数据,2013年"双11"这一天,天猫.淘宝成交额共计350.19亿元,相当于10月全国日均消费额的一半,较去年的191亿元增长83%.支付宝交总交易笔数达到1.88亿笔,其中无线支付达到4518万笔,分别是去年同一天的1.77倍和5倍. 参照央行发布的2013年第二季度支付体系运行数据,二季度全国银行卡消费业务笔数约为30.6亿笔,平均每天约3400万笔,那么支付宝"双11"1天的支付笔数就相当于二季度全国的POS机交易量的5.5倍,也相当于国际支

《麻省理工科技评论》是如何评价阿里云中间件技术的?

从电商巨头向科技巨头华丽转身的阿里巴巴,正在凭借技术创新受到越来越多的海外关注.春节期间,<麻省理工科技评论>(MIT Technology Review)刊登专题文章报道阿里在中间件技术领域的雄厚实力,并介绍了通过阿里云提供服务的互联网中间件平台,如何为传统企业提供大规模高可用的互联网技术能力,从容应对瞬息万变的市场和业务需求. 文章指出,脱胎于阿里自用技术的阿里云互联网中间件平台(Apsara Aliware)能够提供企业级互联网架构解决方案,包括专有技术堆栈和灵活可扩展的云平台.阿里云中

从Hadoop框架与MapReduce模式中谈海量数据处理(含淘宝技术架构)

 文章转载自: http://blog.csdn.net/v_july_v/article/details/670407 从hadoop框架与MapReduce模式中谈海量数据处理 前言     几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,觉得Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到了一个我更加感兴趣的话题:海量数据处理.     由此,最近凡是空闲时

CIO需要围绕技术架构进行项目选型

三分软件,七分实施,十二分数据.虽然这几乎已经是业界的一个共识.但是笔者认为,技术层面的东西仍然是信息化项目选型中一个难以跨越的鸿沟.如果在软件选型过程中,忽略了技术架构的内容,那么CIO很难保证整个信息化项目能够取得圆满的成功.笔者认为,在信息化管理软件选型时,仍然要围绕技术架构进行项目选型.具体来说,需要考虑如下三个技术问题. 问题一:技术的成熟性 在2008年大家都说微软的vista操作系统是迄今为止最失败的操作系统.种种迹象表明,这的确是一个事实,而不适毁谤.如微软把向个人电脑制造商提供

挑战传统数据建模技术 大数据工具成趋势

汹涌而来的大数据浪潮正在改变数据建模技术,包括模式的创建.这个观点在2016年圣地亚哥举办的EDW(企业数据世界)会议上提出,数据专业人员应该及时做出调整,适应形势的变化. 凭借海量数据和不同的数据结构,大数据的冲击也为NoSQL.Hadoop.Spark等带来了新的技术形式.尤其是NoSQL,呼吁在建立数据模型技术上做出改变. 2016年在圣地亚哥举办的EDW(企业数据世界)会议上,一些数据专家建议应该学习一些基本的命令,尤其是涉及到NoSQL数据库的,如MongoDB,Cassandra和R

解码丰田中国研发中心 在华普及新能源技术

丰田中国研发中心区别于其他跨国车企在华研发中心的是,它将力推以混合动力为主的新能源动力系统,丰田在这方面已经有一套清晰的战略了,剩下的就是如何执行. 从江苏常熟市中心往东南方向驱车20分钟,即可抵达常熟东南经济开发区.这个2003年才获得江苏省政府批复成立的省级开发区,因其距离上海不到100公里,吸引了丰田汽车的入驻. 投资达6.89亿美元.由丰田汽车独资拥有的机构--丰田汽车研发中心(中国)有限公司(以下简称TMEC),从2003年开始就已经开始构思了.8年之后,TMEC正式开始动工建设,并将