odps是什么?

ODPS(Open Data Processing Service),是阿里巴巴通用计算平台提供的一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案,现在已更名为MaxCompute,MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。

同时,大数据开发套件和 MaxCompute关系紧密,大数据开发套件为 MaxCompute 提供了一站式的数据同步,任务开发,数据工作流开发,数据管理和数据运维等功能,您可以参见 大数据开发套件简介 来对其进行深入了解。

MaxCompute 主要服务于批量结构化数据的存储和计算,可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务。随着社会数据收集手段的不断丰富及完善,越来越多的行业数据被积累下来。数据规模已经增长到了传统软件行业无法承载的海量数据(百 GB、TB 乃至 PB)级别。

在分析海量数据场景下,由于单台服务器的处理能力限制,数据分析者通常采用分布式计算模式。但分布式的计算模型对数据分析人员提出了较高的要求,且不易维护。使用分布式模型,数据分析人员不仅需要了解业务需求,同时还需要熟悉底层计算模型。MaxCompute 的目的是为用户提供一种便捷的分析处理海量数据的手段。用户可以不必关心分布式计算细节,从而达到分析大数据的目的。

MaxCompute 已经在阿里巴巴集团内部得到大规模应用,例如:大型互联网企业的数据仓库和 BI 分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘等。

MaxCompute 发展历程

从 2009 年 9 月阿里云成立,愿景就是做运算/分享数据第一平台;2010年4月,伴随阿里金融的贷款业务上线,ODPS 正式投入生产运行,2012 年建立统一数据平台,2013 年具备超大规模海量数据处理能力,2014~2015 年大数据平台开始日趋成熟,2016 MaxCompute 2.0 的诞生,成立之初的愿景经过一步步努力逐步实现。

关键性里程碑

  • 2010.04 ODPS 正式投入生产运行。阿里金融的贷款业务上线稳定运行。
  • 2013.05 ODPS 公测。
  • 2013.07 ODPS 正式提供商业化服务,单集群规模 5K 台服务器多级群能力。
  • 2016.09 ODPS 正式更名为 MaxCompute,并推出 2.0,实现高性能,新功能,富生态。

MaxCompute 组件

  • 数据通道:

    • TUNNEL:提供高并发的离线数据上传下载服务。用户可以使用 Tunnel 服务向 MaxCompute 批量上传或下载数据。MaxCompute Tunnel 仅提供 Java 编程接口供用户使用。
  • 计算及分析任务:
    • SQL:MaxCompute 只能以表的形式存储数据,并对外提供了 SQL 查询功能。用户可以将 MaxCompute 作为传统的数据库软件操作,但其却能处理TB、PB级别的海量数据。需要注意的是,MaxCompute SQL 不支持事务、索引及 Update/Delete 等操作,同时 MaxCompute 的 SQL 语法与 Oracle,MySQL 有一定差别,用户无法将其他数据库中的 SQL 语句无缝迁移到 MaxCompute 上来。此外,在使用方式上,MaxCompute SQL 最快可以在分钟,乃至秒级别完成查询,无法在毫秒级别返回用户结果。MaxCompute SQL 的优点是对用户的学习成本低,用户不需要了解复杂的分布式计算概念。具备数据库操作经验的用户可以快速熟悉 MaxCompute SQL 的使用。
    • UDF:即用户自定义函数。MaxCompute 提供了很多 内建函数 来满足用户的计算需求,同时用户还可以通过创建自定义函数来满足不同的计算需求。
    • MapReduce:MapReduce 最早是由 Google 提出的分布式数据处理模型,随后受到了业内的广泛关注,并被大量应用到各种商业场景中。在本文档中,我们会对 MapReduce 模型做简要介绍,以便于用户快速熟悉、了解该模型。使用 MaxCompute MapReduce 的用户需要对分布式计算概念有基本了解,并有相对应的编程经验。MaxCompute MapReduce 为用户提供 Java 编程接口。
    • Graph:MaxCompute 提供的 Graph 功能是一套面向迭代的图计算处理框架。图计算作业使用图进行建模,图由点 (Vertex) 和边 (Edge) 组成,点和边包含权值 (Value)。通过迭代对图进行编辑、演化,最终求解出结果,典型应用:PageRank,单源最短距离算法 ,K-均值聚类算法 等。
  • SDK:提供给开发者的工具包,SDK 的相关介绍请参见 SDK介绍。
  • 安全:MaxCompute 提供了功能强大的安全服务,为用户的数据安全提供保护,详情请参见 安全参考手册。

阿里巴巴大数据计算平台MaxCompute(原名ODPS)全套攻略

阿里巴巴大数据-玩家社区  /

---阿里大数据博文,问答,社群,实践,有朋自远方来,不亦说乎……

时间: 2024-09-20 00:27:28

odps是什么?的相关文章

ODPS任务优化之列裁剪

ODPS任务优化之列裁剪 最近因为几个ODPS任务节点扣分严重,计算健康度一度堕落至85分的红线以下,上了一次黑榜,立马开始了艰苦的优化之旅.刚刚前几天搞定了两个OpenMR的列裁剪优化,略作记录. 什么是列裁剪以及为什么要做列裁剪 列裁剪,即针对OpenMR任务Map阶段的输入,如果只使用了其中的某几列,则裁剪掉不需要使用的列,只指定需要使用的列.这样做的好处也就很明显了,减少网络I/O,提升Map计算效率等等.其实从使用上来看或许叫做输入列指定更顾名思义一些. 如何看任务是否需要列裁剪 这里

ODPS—MPI机器学习编程框架

[编者按]阿里一站式大数据平台--"数加"平台发布后,业内对其核心ODPS也就是现在的大数据计算服务MaxCompute极为关注.平台介绍以及开发背景可见<阿里十年经验输出,大数据平台"数加"的前世今生>.特别分享一篇阿里大数据技术专家刘吉哲的一篇关于MPI机器学习编程框架的文章. 下为正文: ODPS作为一个大数据处理服务,有着得天独厚的优势去承载大规模机器学习,PAI就是这样一个孕育在ODPS之上的大规模机器学习平台. 在PAI平台上,为了支持亿级的

ODPS到ODPS数据迁移指南

1.工具选择与方案确定 目前,有两种方式可用于专有云环境下的从MaxCompute到MaxCompute整体数据迁移. (1)使用DataX工具进行迁移,迁移所需的作业配置文件及运行脚本,可用DataX批量配置工具来生成: (2)通过大数据开发套件(DataIDE)- 数据开发进行迁移,这种方式可选择界面向导模式逐步配置,操作简单容易上手: 2.具体实施 2.1使用DataX工具  这种场景需要先从源MaxCompute中导出元数据DDL,在目标MaxCompute中初始化表,然后借助DataX

阿里巴巴大数据计算平台MaxCompute(原名ODPS)全套攻略(持续更新20171122)

  概况介绍 大数据计算服务(MaxCompute,原名ODPS,产品地址:https://www.aliyun.com/product/odps)是一种快速.完全托管的TB/PB级数据仓库解决方案.MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全.本文收录了大量的MaxCompute产品介绍.技术介绍,帮助您快速了解MaxCompute/ODPS. MaxCompute 2.0:阿里巴巴的大数

ODPS到ADS数据迁移指南

数据同步节点任务是阿里云大数据平台对外提供的稳定高效.弹性伸缩的数据同步云服务.ODPS到ADS数据迁移采用CDP的方式同步数据. 1.     创建源和目标库表结构 初次在同步数据前需要在源库和目标库创建好相应的表结构. 2.     配置数据源 2.1源数据源配置-ODPS 1.登录Base管控台,单击顶部菜单栏中的项目管理,并选择相应的项目.   2.进入数据源配置,单击新增数据源. 3. 在新建数据源弹出框中,选择数据源类型为ODPS;   配置项说明(上图中带*的都必须

使用SLS和ODPS进行系统的性能分析

在对计算机系统,尤其是分布式系统的搭建和验证过程中,性能因素是需要着重考虑的因素之一.更激进一点说,判断架构设计的正确与否,性能的好坏.是否可控.是否可预期绝对是最有效的衡量指标. 不幸的是,现有的性能工具大部分是针对代码级的运行时间进行分析,目标是诊断代码的性能bug.但目前我们并没有(或者我还没见到)针对大型的分布式系统的系统级性能分析工具. 虽然这样,但我们可以发扬DIY精神,卷起袖子自己来做这样的性能分析.通过简单日志服务(SLS)对性能日志进行收集,并使用SLS的离线通道将性能相关的数

MaxCompute - ODPS重装上阵 第二弹 - 新的基本数据类型与内建函数

MaxCompute(原ODPS)是阿里云自主研发的具有业界领先水平的分布式大数据处理平台, 尤其在集团内部得到广泛应用,支撑了多个BU的核心业务. MaxCompute除了持续优化性能外,也致力于提升SQL语言的用户体验和表达能力,提高广大ODPS开发者的生产力. MaxCompute基于ODPS2.0新一代的SQL引擎,显著提升了SQL语言编译过程的易用性与语言的表达能力.我们在此推出MaxCompute(ODPS2.0)重装上阵系列文章 第一弹 - 善用MaxCompute编译器的错误和警

ODPS SQL费用估算与控制

 MaxCompute  ODPS SQL费用估算与控制   作者:顾飞 一 需求背景 费用挑战 ODPS老用户应该都了解过其计费方式,如果不清楚计费方式,可以参考阿里云文章:https://help.aliyun.com/document_detail/27989.html?spm=5176.doc27833.6.701.8vl39E .阿里云本身提供了CU(固定资源)和计算两种计费方式,而我们公司在BI上云的过程中使用的是采云间,它仅支持SQL计算计费方式步支持CU方式,而保险行业又是一个基

ODPS,PAI 入门笔记

新学者,记录自己的探索轨迹 ODPS是一套独立于Hadoop/Spark/的计算平台,优势: 1 依托阿里云的强大算力 2. DTPAI图形界面可以给你单机GUI数据挖掘(类似SPSS/SAS)的方便,能调用并行资源, 3. 内置很多机器学习算法 4. 其他辅助数据很多,比如郡县图治 5. PYODPS也有了,Dataframe等 使用流程 1. 阿里云官网开通大数据计算服务 2. 阿里云官网ODPS控制台创建项目:http://odps.console.aliyun.com     数据管理和

MaxCompute - ODPS重装上阵 第三弹 - 复杂类型

MaxCompute(原ODPS)是阿里云自主研发的具有业界领先水平的分布式大数据处理平台, 尤其在集团内部得到广泛应用,支撑了多个BU的核心业务. MaxCompute除了持续优化性能外,也致力于提升SQL语言的用户体验和表达能力,提高广大ODPS开发者的生产力. MaxCompute基于ODPS2.0新一代的SQL引擎,显著提升了SQL语言编译过程的易用性与语言的表达能力.我们在此推出MaxCompute(ODPS2.0)重装上阵系列文章 第一弹 - 善用MaxCompute编译器的错误和警