大数据阿里云产品的简单介绍理解

   很多人问,大数据是什么。一个时尚的技术名词,一个互联网时代的标志。给人高端大气上档次的感觉,很多公司不说自己有大数据都不好意思跟别人谈业务。那我就谈谈我的一些看法来结合阿里云的数加大数据产品比较粗俗的介绍下大数据到底是什么。
    首先,从字面意思”大数据”,那可以感受到,数据量要大,这是一个必须的条件。举一个例子,比方说我要根据一些销售数据做一个报表给老板看,那么几千条数据甚至几万条,我用excel可以很方便的做出来,数据可以保存在自己电脑上。
那么,当数据几十万到几百万,excel就不能做了,就需要把数据放在数据库,比如常见的mysql等关系型数据库,来计算存储等,但是当数据量几千万几亿几十亿以上呢,怎么办?那就需要大量的服务器和更高的配置机器来存储,计算,做出来报表,这其中就需要大数据技术来实现。所以,大数据的根本条件是数据量要足够大。
     说大数据,就不得不说分布式的概念。还是那个做报表的例子,数据量小,放在一个excel表中,放在你自己的一台电脑里存储,数据量大点的时候,放在一台或者独立的放在几台服务器上,再不行就增加配置,装个mysql来管理,但是如果数据量非常大,每天几十Tb过来或者每天要从几十T数据中抽取一些数据来做一些指标给老板看,一台服务器肯定是干不了的,如果把数据分开存储又是相对独立的到几台服务器上肯定会影响数据的总体效果,比如对数据排个顺序。那怎么办呢,是否可以用某种方式或者某个软件把很多台服务器连在一起让他们像一台服务器工作呢,答案是肯定的。这就是分布式系统,把存储和计算分发到每个服务器上来执行,整体看来就像是一台在执行,汇集了多台服务器资源。这种方式或者软件再或者说结构,是阿里云的基础,我们有一个响亮而又充满梦想色彩的名字:飞天系统。那么下面我就围绕数据来介绍,以公司为中心,按照数据从哪里来,来了怎么办,到哪里去这个线路来说下相关概念。
一, 数据从哪里来,怎么来
        一切业务数据化。举个例子,寄快递,最开始大家寄东西要填写快递单,手写的,这些是你的信息,姓名,电话,地址等,这些数据被搜集起来,就变成了最原始的数据,比如你在商场逛随便连人家的免费wifi,抱歉你的信息,从哪个门进来,那个门出去,在哪个店呆了多久等信息被搜集(说这些我会不会被找喝茶),再比如大家喜欢追剧,你在哪个页面看了什么电视什么类型看了多久,评论了什么,用的什么手机搜集成为原始数据。
那如果用户非常多,产生的数据也必然非常大。怎么搜集呢,用什么技术呢,那么比如阿里云产品-日志服务等产品,当然还有其他阿里云产品

官方文档:https://help.aliyun.com/product/28958.html?spm=5176.7618386.3.2.L5fXeB

二,数据来了怎么办

     一切数据业务化。怎么办是说,这么大的数据,怎么去存储,怎么做计算,怎么做成功能或者成什么样的产品呢。

     首先,这样大批量的数据,就可以放在飞天上存储,计算等。那么存储和计算又分很多种,就比如你有一个农场,农场里有很多仓库,仓库里可以放各种东西,比如小麦,你可以放在麦斗里,你也可以装在袋子里堆在那里,你也可以随便倒进仓库就行。可以对这些小麦筛选统计等,那么小麦就是数据,这就是数据仓库,农场上的这个仓库,我们可以对应阿里云的大数据利器ODPS现在叫:Maxcompute。

官方文档:https://help.aliyun.com/document_detail/27800.html?spm=5176.7740343.6.539.HfFlWv

     那么用户可以把海量数据放到odps中,进行存储,计算,以及和其他数据源交互等。类似于你可以把麦子进行筛选,去杂质,选出优质麦子,那就是对应到大数据术语,数据的清洗,过滤。到此看似可以满足基本需求了,如果我有很多地方的麦子要装进仓库,我要对很多仓库里的麦子进行筛选,我还要把筛选出来的优质麦子送到科研单位做实验。问题来了,谁先装进仓库,对谁先筛选或者同时筛选,筛选进度,或者说我就想等一号仓库筛选完了再进行2号仓库的筛选,我需要有人进行调度指挥,筛选完了送到其他各个地方,并且我想整个流程透明化,智能化。怎么办?

   我们对odps进行了封装并且集成了其他一些功能让操作变得可视化,可用易用

官方文档:https://help.aliyun.com/document_detail/30256.html?spm=5176.7843912.6.539.SfmCgC

     用户可以通过可视化的工具-大数据开发套件,来操作odps,另外一个重要的功能是数据同步,把麦子运到其他地方。开发套件中可以界面化配置同步到rds,ads等等各种数据库中,可以定时,可以设置任务的依赖关系和周期,可以预警等等。并且重要的是,目前是免费使用。

     话题回到最开始麦子存放,如果麦子源源不断的运过来,从地里收割一把麦子就立刻通过某种流式的比如传送带送到科研单位,并且传送过程中要进行麦子的筛选,鉴别等操作。怎么办,有没有这种实时的通道,流式的具有筛选功能的传送带呢。首先收割采集麦子的方法,我们有一种了,就是上面的日志服务,可以收割,有一个重要的问题不能忽略,就是收割速度很快,我后面的传送带上筛选工具筛选能力不够,麦子会堆积吧,那有没有一种工具,可以先把搜集的麦子源源不断的临时存放在那里,后面流式传送带上筛选多少就从那里取多少,源源不断的取。有这种工具,它就是datahub-实时数据通道,可以通过日志服务把日志实时上传临时存储,那传送带流式的实时筛选器是什么-阿里云流计算

https://help.aliyun.com/video_detail/55154.html

datahub配合流计算使用,天衣无缝。流计算可以从datahub中取数据做到实时计算分析。

   话题再次回到存放麦子的问题上,比如我有一些麦子需要非常快速的筛选,计算麦子各种指标,比如品种占有比例,注意是要筛选得速度快,领导随时都会来视察,随到随查的那种。我们可以把数据存放在ADS中,眨眼间,千亿数据随意查询:

官方文档https://help.aliyun.com/product/26371.html?spm=5176.7618386.3.8.NgtbKi

    说到数据存储,比如我在农场里不仅是麦子的存放,我还有一些化肥农药汽油什么不是那么规则的物质怎么办呢

官方文档:https://help.aliyun.com/product/31815.html?spm=5176.7618386.3.2.d755W7

    oss能存放非结构化的数据,比如音频,视频,图片等并提供快速访问接口,当然日志数据也是可以存的。那么Maxcompute就不可以存放这些数据,要求要是结构化的,但是Maxcompute2.0可以连接oss间接处理非结构化数据。

三,数据到哪里去

既然领导来视察了,来看麦子的各项指标,你还没准备好excel怎么办,请使用阿里云产品:Quick BI

官方文档:https://help.aliyun.com/document_detail/33813.html?spm=5176.doc53448.6.539.bPiG2B

像使用excel那样操作海量数据的报表,我自己都怕了。

那么,如果你还想做个牛逼的ppt给老板看,或者做个动画看看地图上每个位置的麦子产量,整个双11的那种大屏幕给老板看,幸运的是,datav可以满足

官方文档:https://help.aliyun.com/document_detail/44253.html

领导视察完毕,作出重要指示:

  • 希望地方可以根据历年使用的化肥,农药,种植的地域,播种时间等因素综合考量指定出最佳的丰收计划
  • 希望可以将麦子进行分类,聚类,能够做到下面再有麦子进入仓库可以自动识别它是那种类别

领导的指示不敢怠慢,机器学习来帮你用算法搞定

官方文档:https://help.aliyun.com/product/30347.html?spm=5176.7618386.3.2.sGxA27

   机器学习,是一个名词,通俗一点讲,是希望机器通过算法程序实现拥有像人类一样有学习能力,学习后有经验了,长大了,就能够明辨是非了。这种学科演化为专业学科,并不是说让机器会学习。从技术角度说,它是一个技术学科。是一门多领域交叉学科,涉及概率论、统计学、逼近论凸分析算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

   最后再举一个例子,上淘宝买衣服,发现买了上衣之后,在下面会给你推荐鞋子,裤子或者类似款式的衣服,如果你经常买衣服,会经常给你推荐相关性很强的东西。再比如,刷微博,会根据你经常喜欢点击看哪些视频,给你推荐相同类型的视频。这就是算法实现的,具体来说是推荐算法,属于机器学习学科中的一种算法。如何使用推荐呢

官方文档:https://help.aliyun.com/product/30367.html?spm=5176.7618386.3.2.sgyFWM

     比如微博,用户量巨大,我要对每个用户进行推荐,一个推荐算法的实现运行需要对背后海量的数据进行计算,那就是-大数据。所以说,机器学习,推荐算法是基于大数据技术的。阿里云机器学习,推荐引擎是基于Maxcompute的海量存储和计算能力的。往大的说,实际上这些机器学习学科早就出现了,但是因为没有强大的大数据技术的支撑发展缓慢,近些年来随着大数据技术的发展以及服务器在内存和cpu上的突破得以广泛应用,并且推动人工智能的发展。

    总结:大数据技术并不是阿里云特有,但是阿里云把它变成了一种普惠服务和平台提供给用户。目前各色各样的企业单位把数据放到云上,百花齐放,是信任。安全稳定是第一要则,所以 云若安好,便是晴天。

   如果非让我用一句话总结云计算的话,那便是:彩云之下,万物相连。

时间: 2024-10-31 15:57:52

大数据阿里云产品的简单介绍理解的相关文章

公交车用上大数据 阿里云发动全球大脑

文章讲的是公交车用上大数据 阿里云发动全球大脑,高峰时段,如何选择一条车上人少.路上不堵的公交车?全城多地举办万圣节派对,政府如何智能增减公交车班次? 最近,一群来自全世界的数据爱好者准备用大数据为广州.佛山市民设计最优出行方案.他们计划通过计算广佛城际公交线的历史刷卡数据来分析预测交通客流,为市民出行和公交调度提供参考. 11月5日,由广东省经济和信息化委.广东省交通运输厅.广东省教育厅.共青团广东省委员会.以及阿里云联合主办的"广东公共交通大数据竞赛",通过阿里云天池大数据平台正式

除了云计算和大数据 阿里云推出的新法宝“中间件”究竟是个啥?

6月15日,在美丽的鹭岛厦门,阿里云向外界展示了进军企业级市场的三个杀手锏:全面的云计算.企业级互联网中间件和大数据平台数加.这三件法宝将带来资源融合.架构共享.数据互通的价值,帮助企业解决互联网挑战难题. 云计算和大数据大家都很熟悉了,中间件又是个什么鬼?从字面上解释就是"处于中间的软件",别看这词有点生疏,其实早在1990年,中间件就作为网络应用的基础设施出现了.诞生于贝尔实验室的Tuxedo系统就是最早用于交易系统的中间件.中间件的出现解决了异构分布网络环境下软件系统的通信.互操

【阿里云产品公测】大数据下精确快速搜索OpenSearch

相信做过一两个项目的人都会遇到上级要求做一个类似百度或者谷歌的站内搜索功能.传统的sql查询只能使用like 或者FIND_IN_SET来实现.后者性能稍微好点但是必须要逗号分隔才可以实现匹配.甚至多条件的话还可能用到OR这是极影响系统性能的.        最近公司项目需要.主要是系统查询缓慢.并且查询精度不敢恭维.一开始想到的是Lucene 毕竟是一个开放源代码的全文检索引擎工具包 并且官方还在持续更新中.当时闲暇时间大概搞了将近一个星期的时间.索引的增删查改以及中文分词IKAnalyzer

利用阿里云产品的数据备份与恢复实践

背景 对业务系统来说,数据可靠性非常重要.如何通过简单的配置,实现适当有效的备份机制并具备快速恢复能力是本最佳实践所要解决的主要问题. 不同的业务系统,对可用性和备份恢复的要求有很大的不同:对一般系统来说,因为阿里云默认有3份冗余副本.对磁盘和数据库的每天自动备份,并承诺99.9%的可用性,所以不须做更多配置.但为了应对意外情况,需要做好变更日志和本地备份: 对业务价值比较大的系统来说,只要做到严格遵守操作规范和利用阿里云提供高可用.数据备份和恢复机制,无论发生何种类型的故障或灾难,也能降低损失

2017阿里云产品场景图:端、云、数据、智能,一图承载下的阿里云

"人算不如天算,天算就是云计算."在2017深圳IT领袖峰会上,阿里巴巴董事局主席马云如此直接推介云计算. 回到阿里云产品本身.阿里云产品数,从去年的6月份93款产品,到9月份121款,再到今年1月份的150款-- 产品越来越多,它们之间的逻辑和用户场景是什么样的?这些产品在今天又可以怎么被概括,它们分别处于什么样的位置? 这一次,我们从一个新的角度出发,把产品分为四类:端.云.数据和智能. 需要指出的是,用来承载的图,前后修改多个版本,历时两个多月打磨.如此费心,我们希望你能暂时忘却

云创大数据9款产品成功入围中央国家机关集中采购

近日,中央国家机关政府采购中心公布了"中央国家机关2017-2018信息类产品协议供货采购项目中标公告",作为我国政府采购领域级别最高.覆盖面最广的采购项目之一,其同时也是地方政府采购的风向标.在采购名录中,云创大数据旗下9款产品凭借优异的性能与安全可靠的特点成功入选. 此次云创大数据的中标产品涵盖网络存储设备.服务器.网络安全产品等:网络存储设备的丰富机型可供灵活选择,同时具有高性能.高可靠性以及节能环保等多重魅力:服务器则针对超大规模数据中心应用.高性能计算以及虚拟化应用特别设计,

基于阿里云产品的全链路评估

什么是全链路评估 在突发流量场景或者是新业务上线的场景,在未来某个特定的日期或者时间点将会有一轮大流量的用户请求的时候,由于没有真实生产环境运行时候的历史信息做参考,就特别需要通过链路评估来对系统承载能力进行评估,从而保证系统的可靠稳定运行. 我们理解的链路评估,是从访问入口开始,对整条链路的所有潜在的瓶颈点,进行全方位的测量,通过改造链路结构和容量配比,达到提升整体链路性能和可靠性的目的. 这里面的链路评估是相对单系统调优来说的,单系统调优重点关注的是在"机器操作"的微观级别上做具体

一分钟了解阿里云产品:云监控

一.             概述   阿里云发布的产品种类齐全,今天让我们一起来了解下云监控这款产品吧.   什么是云监控呢?   云监控(CloudMonitor) 是一项针对阿里云资源和互联网应用进行监控的服务.云监控服务可用于收集获取阿里云资源的监控指标,探测互联网服务可用性,以及针对指标设置警报.     那么,云监控有什么优势呢?   云监控服务无需特意购买和开通,您注册好阿里云账号后,便自动为您开通了云监控服务,方便您在购买和使用阿里云产品后直接到云监控查看产品运行状态并设置报警规

佰腾科技的专利大数据的云上裂变之路

江苏佰腾科技有限公司是一家从事专利信息应用.专利咨询服务的企业,是国内知名的知识产权服务公司,以佰腾网和专利巴巴为网络平台,面向国内外用户提供知识产权.科技创新整体解决方案.2014年起,公司积极推进互联网转型,实施"互联网+专利"计划,开发了国内首家专利电商平台-专利巴巴,通过专利巴巴项目的实施,使公司转型为知识产权领域内的互联网公司,并采用B2B.O2O线上线下相结合的模式为客户提供全方位的.全流程的知识产权一体化服务. 用互联网的思维和技术来改造传统的知识产权行业,在这个过程中,