阿里十年经验输出,大数据平台“数加”的前世今生

2016
年1月20日,在云栖大会上阿里云发布了一站式大数据平台“数加”,该平台集合了阿里巴巴十年的大数据能力以及上万名工程师实战检验,该平台是一站式的解决方案,首批亮相20款产品,覆盖数据采集、计算引擎、数据加工、数据分析、机器学习、数据应用等数据生产全链条。


数加平台由大数据计算服务(MaxCompute)、分析型数据库(Analytic DB)、流计算(StreamCompute)共同组成了底层强大的计算引擎,速度更快、成本更低。计算引擎之上,“数加”提供了丰富的云端数据开发套件,包括数据集成、数据开发、调度系统、数据管理、运维视屏、数据质量、任务监控等在内。


“数加”还向有数据开发能力的团队开放,这些团队可入驻“数加”,借助数加上的工具为各行各业提供数据服务。大数据开发套件的优势包括:支持100人以上协同设计、开发、运维;具有良好的扩展性;提供各个产品功能模块的Open
API,可二次开发;多个数据实例之间的数据授权机制,确保数据只能使用却不可见;提供白屏化的运维能力,以及字段级数据质量监控、机器预警、资源使用率监控等功能,让用户更好的掌控自己的数据及数据任务。

、6小时处理100PB数据、Analytic
DB支持百亿量级多维查询只需100毫秒

大数据计算服务可6小时处理100PB数据,相当于1亿部高清电影。单集群规模过万台,并支持多集群联合计算。做到了速度更快,成本更低。经测算,自建Hadoop集群的成本是数加的1.5倍,国外计算厂商AWS 的EMR成本更是数加的5倍。


此次发布的产品还覆盖数据采集、计算引擎、数据加工、数据分析、机器学习、数据应用等数据生产全链条。具体来看:

  • 数据采集方面:Datahub可为用户提供实时数据的发布和订阅功能;
  • 底层计算引擎:由大数据计算服务MaxCompute(原ODPS)、分析型数据库Analytic DB、流计算StreamCompute共同组成。
  1. 大数据计算服务可6小时处理100PB数据,相当于1亿部高清电影;单集群规模过万台,并支持多集群联合计算。做到了速度更快,成本更低;
  2. 分析型数据库Analytic DB可实现对数据的实时多维分析,百亿量级多维查询只需100毫秒;
  3. 流计算StreamCompute对实时流式数据进行分析,具有低延时、高性能的特点。每秒查询率可以达到千万级,日均处理万亿条消息、PB量级的数据。
  • 数据分析方面:
  1. Mobile Analytics 让开发者可快速搭建日志采集、分析系统,从而为用户提供个性化服务;
  2. DataV 通过数加BI报表产品,3分钟即可完成海量数据的分析报告。产品支持多种云数据源,提供近20种可视化效果;
  3. 通过数据可视化产品DataV,一星期就能做出双11同款大屏;
  4. 基于DataV,数加还发布了面向政府的行业应用产品“郡县图治”:通过这款产品,县长可以在一个屏幕下统览全县各项经济民生数据,为政府决策提供辅助。
  • 机器学习方面:
  1. 可基于海量数据实现对用户行为、行业走势、天气、交通等的预测;
  2. 图形化编程让用户无需编码、只需用鼠标拖拽标准化组件即可完成开发;
  3. 产品还集成了阿里巴巴核心算法库,包括特征工程、大规模机器学习、深度学习等
  4. 提供了全面支持,包括规则引擎、推荐引擎、文字识别、智能语音交互等;比如规则引擎是一款用于解决业务规则频繁变化的在线服务,可通过简单组合预定义的条件因子编写业务规则,并做出业务决策。而文字识别提供自然场景下拍摄的图片中英文文字检测、识别以及常见的证件类检测和识别。智能语音交互基于语音和自然语言技术构建的在线服务,为智能手机,智能电视以及物联网等产品提供“能听、会说、懂你”式的智能人机交互体验。


阿里云的大数据平台数加的整体架构

二、追溯数加平台的前世今生

1. 数加平台的起源

第一个数据仓库——阿里大数据分析的雏形


在2004年5月,为了从大数据中分析当前状况,并预测未来的趋势,出现了第一个大数据仓库;到2008年,淘宝的业务量与数据量已达到04年的数千倍,按照这样的趋势,不出几年IOE的成本就会将公司拖到破产。鉴于Oracle的性能已经不足以支撑新的业务量,底层技术架构亟需升级。到2009年,新的数据公司成立。

2. 阿里云和阿里金融的诞生

当时,整个服务器与全部信息四处分散,整个数仓的逻辑是以很多脚本拼凑而成。由于其中的逻辑过于复杂,一旦系统出错,只有专人才能解决。彼时还存在诸多问题,包括:服务器利用率低、信息孤岛、数据冗余、基础建设一穷二白,而且由于云计算技术还是新兴技术,存在着安全隐患。

为了解决这些问题,阿里决定成立阿里云,从底层重构云计算及大数据技术。同时,为了实现自主可控,阿里金融成立。

阿里金融的成立意义重大,整个管理层从中真正看到了数据公司的雏形。总结来说,在这样的公司中:数据是它的生产资料;只有把这些数据集中融合,才能产生这种业务。

只有集中融合数据,才能产生这种业务

不过随着时间推移,到2010年,虽然大家承认这种模式很好,但实际上还存在着严重的问题:一是在生产资料方面:如何集中和打通这些数据,实际上历史数据是很欠缺的。之前大家并没有这方面的意识,因此没有保留历史数据,变更都是直接替换。二是在生产工具方面:阿里系统需要大量的计算,那么如何解决大规模计算问题?

三、大数据计算服务(ODPS)进化史

原ODPS,现MAXCOMPUTE的进化史


由于诸多问题,数据应用急需改革与整合:信息重复存储、标准不一,存在很多小集群,基础建设每年需投入几十亿;而且每一块业务都可能需要淘宝的内部表,因而研发成本较高;同时信息获取时间较长,一个数据需要等半年;另外搜索数据也很困难。

1. 数据平台部成立

最终,在2012年数据平台部(CDO)成立,具体执行的工作可以总结为三个词:存、通、用。“存”将数据大集中,存入ODPS;“通”:统一规范,打通各个业务单位;“用”:推动数据开放和交换,促发展,养生态。

一切业务数据化,一切数据业务化

2. 成立ODPS

2012年,我们还计划将集团内部几十个小集群进行统一,这个任务又称登月计划到了2013年,我们决定将整个集团的业务集中在一个平台上,不仅是阿里系统可以使用,其他业务也能使用。因此我们将原本的数据仓库改名为大数据计算服务(ODPS),并将所有金融业务所需要的数据放在云端,集中到ODPS上。

3. 大数据基础设施成熟,开始创业

2015年,大数据基础设施成熟,既然阿里在数据方面有这么多的经验,有这么多的能力,我们想要将这样的能力分享给其他创业者,让普惠大数据成为现实。所谓的“普惠大数据”这个概念,可以简单表述为:让大数据为人人可用;大家用得起、用的快,用的好;生态化,要和服务商共享三年,共享一万亿的计划。

4. 
数加平台推出:

此时的问题在于产品化不足:如何将这个平台商业化,将内部使用的产品调整成公共平台;产品独立部署的问题:平台与之前内部系统联系紧密,需要剥离;需要适应具体客户的需求。

最终确定了下面的解决办法:将整个平台拆小,拆分成不同功能的模块;将产品从原有系统中剥离出来;3)既然阿里擅长平台,我们先把平台做好,再与所有行业伙伴一同合作。

直到2016年1月,数加平台支持对外服务。

数加平台支持对外服务

四、数加平台提供的服务

1. 如何为客户提供服务

简单来讲有以下三点,首先是回归商业本质:每笔业务有相应的费用;其次是解决业务问题:有专门的咨询团队,必要时可以与客户面对面沟通来协同客户开发;最后,拓展自己的商业边界:从已有数据总结,发现新的商业机会。

2. 具体业务问题的解决

在缺乏精准化运营的情况下,公司在决策时只能靠猜或者靠蒙。为了解决这个问题,首先需要树立指标。

  • 例如在叫车场景中:司机和乘客两端,乘客是降低等待时长,司机是降低空驶率,需要优化这两个指标。另外,不能盲目在中间流程加内容。

从微创型小点出发,从旁路来做优化设计,这就是典型的旁路设计。比如司机现在有个单子,想要不停地接单。设计方式如下,首先是标签:司机在过去二十分钟之内接过单;其次,当前司机手头上定单的终点有人在打车。将其拆成两条规则,把类似的接力单、返程单、交接班单统统用数据描述,这就是典型的用数据进行业务的产品。

  • 例如在商业WIFI公司通过创建O2O营销平台时:首先根据客流和商铺数据挖掘人物对商铺的兴趣图谱、商铺之间的关系网;其次整合标签做多维透视,深度刻画人群画像,为商铺提供分析平台;最后使用定向运营为商铺提活动定向,精准触达目标客户。

这样一来,通过强大的分析引擎,我们支撑了分析平台的功能研发,并实现了精准定向实现用户准确触达。

3. 关于数据可视化

针对不同角色,所需要设计的内容也不同,而且要具有启发式,利于公司领导者进行决策。

五、未来展望

“技术是没有门派的,服务也是没有边界的。任何的技术的诞生都是源于最终用户的需求和服务。”当阿里云与九州云、润和软件、创客+、国家气象局、NVIDIA签署战略合作时,阿里云资深总监李津这样说道。

通过技术融合服务于用户,这是整个数加平台真正的生态价值所在,也是未来云技术的发展趋势。

大数据在各行各业都发挥着自己的作用,包括水利、气象以及未来的海洋、地震、国土等重大基础资源管理的行业和部门;还有交通、娱乐、物流、健康等创新型行业;也包含人机交互、全渠道CRM等计算机相关领域。

有了这样的生态和阿里云的数加大平台在一起,阿里云计划用3年时间吸引1000家合作伙伴入驻,能够通过数加这个平台,能够培养一千位首席数据官,更希望能培养出五万名数据科学家。

时间: 2024-10-01 21:08:02

阿里十年经验输出,大数据平台“数加”的前世今生的相关文章

阿里云一站式大数据平台"数加"产品发布

文章讲的是阿里云一站式大数据平台"数加"产品发布,阿里云在2016云栖大会上海峰会上宣布开放阿里巴巴十年的大数据能力,发布一站式大数据平台"数加",首批亮相20款产品.据介绍,在输出自身大数据能力的同时,"数加"还向有数据开发能力的团队开放.这些团队可入驻"数加",借助数加上的工具为各行各业提供数据服务. 此次,"数加"平台首批集中发布了20款产品,覆盖数据采集.计算引擎.数据加工.数据分析.机器学习.数据

阿里云发布一站式大数据平台“数加”

1月20日消息,阿里云在2016云栖大会上海峰会上宣布开放阿里巴巴十年的大数据能力,发布一站式大数据平台"数加",首批亮相20款产品.据介绍,在输出自身大数据能力的同时,"数加"还向有数据开发能力的团队开放.这些团队可入驻"数加",借助数加上的工具为各行各业提供数据服务. "这就像在淘宝开店一样,只是他们售卖的是专业能力."阿里云大数据事业部资深总监徐常亮表示,阿里云计划用3年时间吸引1000家合作伙伴入驻,共同分享1万亿的大

阿里云“数加”大数据平台为计算加点料

数据在现在的年代一点也不缺,大数据时代是一个很好的解释,而且计算也是我们从很早就开始做的一件事. 计算在那个年时代是一件相对困难的事情,但是在现如今计算的能力却平易近人.这就不得不说到图灵,他被誉为计算机之父,其让计算发生了质的飞跃. 为了计算而奋斗始终 为了无法计算的价值,正是现在企业要做的一件事,而这也成了阿里云甚至是2016栖大会上海站的主题,阿里巴巴集团首席技术官王坚对计算这点事做了充分的阐述. 阿里巴巴集团首席技术官王坚 因为有了互联网+数据+计算产生了巨大的价值,使得人类有机会看到以

阿里再次“拔高”云业务 发布大数据平台

阿里的云业务在集团内部的重要性正在持续上升中,去年下半年以来,包括马云在内的众多阿里高管不断在各种场合向外界强调所谓DT时代(大数据时代)的来临. 1月20日,阿里云发布全球首个一站式大数据平台"数加",首批亮相20款产品,阿里云做"普惠大数据"的野心再一次显现. 据了解,"数加"将向有数据开发能力的团队开放,这些团队可入驻"数加",借助数加上的工具为各行各业提供数据服务."这就像在淘宝开店一样,只是他们售卖的是专业

大数据平台技术发展脉络

作为集团"大数据平台技术"战略研究的准备工作,本文梳理了近年来作者观测到的大数据行业技术演进的路径,希望把握发展脉络,找到适合公司业务实际的方向.文章力求用通俗的方式描述概念,最大程度减少专业图表与细节,以便向公司管理层与业务部门同事介绍大数据平台技术的发展与趋势,这里分享给金融行业的朋友参考. 数据技术演进 软件系统,小到HelloWorld编程入门,大到数亿人同时使用的社交软件.搜索引擎,或者是基于公有云的软件即服务(SaaS),本质上都是在处理两件事情:业务逻辑与数据.随着信息时

【阿里在线技术峰会】李金波:企业大数据平台仓库架构建设思路

本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的<企业大数据平台仓库架构建设思路>的分享整理而成.随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化.半结构化.非结构化数据的产生,越来越多的企业开始在大数据平台下进行数据处理.分享中,李金波主要从总体思路.模型设计.数加架构.数据治理四个方面介绍了如何利用大数据平台的特性,构建更贴合大数据应用的数据仓库. 直播视频: (点击图片查看视频) 幻灯片下载:点此进入 以下为整理内容. 总体思路 随着互联网规模不断的扩大,数据也在爆炸式

为什么选择这样的大数据平台架构?

当前BAT基本公开了其大数据平台架构,从网上也能查询到一些资料,关于大数据平台的各类技术介绍也不少,但在那个机制.那个环境.那个人才.那个薪酬体系下,对于传统企业,可借鉴的东西也是有限的. 技术最终为业务服务,没必要一定要追求先进性,各个企业应根据自己的实际情况去选择自己的技术路径. 与传统的更多从技术的角度来看待大数据平台架构的方式不同,笔者这次,更多的从业务的视角来谈谈关于大数据架构的理解,即更多的会问为什么要采用这个架构,到底能给业务带来多大价值,实践的最终结果是什么. 它不一定具有通用性

达梦战略扩展:大数据平台应运而生

文章讲的是达梦战略扩展:大数据平台应运而生,大数据是一场革命,它将改变我们的生活.工作和思维方式.继移动互联网.云计算后,大数据逐渐成为对于ICT 产业具有深远影响的技术变革,越来越多的企业纷纷加入到了大数据的掘金浪潮中.在互联网+的风口上,各种结构化.半结构化.非结构化的海量数据应运而生,如何快速建立起一套完善而高效的大数据管理与分析平台系统,如何帮助企业用户实现大数据的有效管理和资产开发已成为时下业界的关注热点. 2015年6月25日,由达梦数据库主办的"大数据挑战与对策"主题研讨

美甲帮:玩转指甲上的大数据平台

11+大数据行业应用实践请见https://yq.aliyun.com/activity/156,同时这里还有流计算.机器学习.性能调优等技术实践.此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps:更多精彩内容参见大数据频道:https://yq.aliyun.com/big-data . 美甲帮是牧云网络旗下一款专注美甲行业的社区型垂直电商APP,其核心业务包括美甲资讯.美甲行业认证.培训教学.