MaxCompute-GRAPH可配置参数列表(持续更新)

基础配置

设置Vertex类

配置:odps.graph.vertex.class
API:GraphJob.setVertexClass()
说明:设置Vertex的实现类,通常使用API设置。

设置Combiner类

配置:odps.graph.combiner.class
API:GraphJob.setCombinerClass()
说明:设置Combiner的实现类,通常使用API设置。

设置Partitioner类

配置:odps.graph.partitioner.class
API:GraphJob.setPartitionerClass()
说明:设置Partitioner的实现类,通常使用API设置。

设置Aggregator类

配置:odps.graph.aggregator.classes
API:GraphJob.setAggregatorClass()
说明:可以设置一个或多个Aggregator实现类,编号从0开始。通常使用API设置。

设置WorkerComputer类

配置:odps.graph.worker.computer.class
API:GraphJob.setWorkerComputerClass()
说明:设置WorkerComputer的实现类,通常使用API设置。

设置Loader类

配置:odps.graph.loader.class
API:GraphJob.setGraphLoaderClass()
说明:设置GraphLoader实现类,通常使用API设置。

配置Loading Resolver类

配置:odps.graph.loading.vertex.resolver.class
API:GraphJob.setLoadingVertexResolverClass()
说明:设置LoadingVertexResolver的实现类,通常使用API设置。

配置Computing Resolver类

配置:odps.graph.computing.vertex.resolver.class
API:GraphJob.setComputingVertexResolverClass()
说明:设置ComputingVertexResolver的实现类,通常使用API设置。

配置最大迭代次数

配置:odps.graph.max.iteration
API:GraphJob.setMaxIteration()
说明:设置最大迭代次数,默认 -1,小于或等于 0 时表示最大迭代次数不作为作业终止条件.

配置Worker的CPU申请量

配置:odps.graph.worker.cpu
API:GraphJob.setWorkerCPU()
说明:设置 Worker CPU,默认 200,表示两个 CPU 核. 取值范围[200, 800]

配置Worker内存申请量

配置:odps.graph.worker.memory
API:GraphJob.setWorkerMemory()
说明:设置 Worker 内存,单位MB,默认 4096. 取值范围[2048, 32768],即2G~32G。如有特殊需求,请联系ODPS-GRAPH开发人员。

配置输入表信息

配置:odps.graph.input.desc
API:GraphJob.addInput()
说明:请参考javadoc:http://odps.alibaba-inc.com/doc/prddoc/odps_graph/api/index.html

配置输出表信息

配置:odps.graph.output.desc
API:GraphJob.addOutput()
说明:请参考javadoc:http://odps.alibaba-inc.com/doc/prddoc/odps_graph/api/index.html

配置Split Size

配置:odps.graph.split.size
API:GraphJob.setSplitSize()
说明:设置输入的切分大小,单位 MB,默认 64。当没有配置odps.graph.worker.num情况下,切分的个数决定了worker的个数。

配置Worker的个数

配置:odps.graph.worker.num
API:GraphJob.setNumWorkers()
说明:设置作业并行执行的节点数,最大值4000。 默认节点数由getSplitSize()和作业输入数据量计算得到。
此接口与 setSplitSize(long) 配合使用,可以提高数据的载入速度。 假设 setNumWorkers 为 workerNum, setSplitSize 为 splitSize, 总输入字节数为 inputSize, 则输入被切分后的块数 splitNum = inputSize / splitSize,workerNum 和 splitNum 之间的关系:

若 splitNum == workerNum,每个 worker 负责载入一个 split;
若 splitNum > workerNum,每个 worker 负责载入一个或多个 split;
若 splitNum < workerNum, 每个 worker 负责载入零个或一个 split;
因此,应调节 workerNum 和 splitSize,在满足前两种情况时,数据载入比较快。迭代阶段只调节 workerNum 即可。

Failover相关配置

配置等待所有Worker启动完毕最长时间

配置:odps.graph.fuxi.job.max.wait.time
API:无
备注:单位是分钟,默认值:15

配置Load后马上执行checkpoint的时间限制

配置:odps.graph.load.checkpoint.limit.time
API:无
说明:
单位:毫秒,默认值:600000(10分钟)
如果load时间超过了该值,则load完成后会立即执行一次checkpoint。

配置checkpoint执行频率

配置:odps.graph.checkpoint.superstep.frequency
API:GraphJob.setCheckpointSuperstepFrequency()
说明:
默认不设置表示按系统默认的方式做checkpoint,即间隔10分钟做一次checkpoint,如果设置,合法值是大于或等于0的整数, 0表示不进行checkpoint,大于0,表示期望每隔n轮superstep做checkpoint,若n次superstep的时间小于系统checkpoint 时间间隔(10分钟),也仍然等到10分钟后再做checkpoint.

配置checkpoint执行周期

配置:odps.graph.checkpoint.time.interval
API:无
说明:单位:秒,默认值:600(10分钟)
如果没有配置odps.graph.checkpoint.superstep.frequency,则checkpoint执行周期以改参数为准;如果配置了odps.graph.checkpoint.superstep.frequency且配置值非0,则checkpoint执行周期为superstep达到odps.graph.checkpoint.superstep.frequency的整数倍且执行间隔大于该参数。
该参数从sprint17开始开放配置。

配置Failover最大重试次数

配置:odps.graph.max.attempts
API:无
说明:默认值为3

高级Feature

配置AggregatorOwnerPartitioner

配置:odps.graph.aggregator.owner.partitioner.class
API:GraphJob.setAggregatorOwnerPartitionerClass()
说明:设置AggregatorOwnerPartitioner的实现类,默认是HashAggregatorOwnerPartitioner.class

配置是否启用Tree Aggregator

配置:odps.graph.use.tree.aggregator
API:GraphJob.setUseTreeAggregator()
说明:是否启用Tree Aggregator,待补充介绍文档。

配置Tree Aggregator 深度

配置:odps.graph.aggregator.tree.depth
API:GraphJob.setAggregatorTreeDepth()
说明:启用Tree Aggregator情况下,Tree的深度。默认是2

配置是否启动广播机制

配置:odps.graph.broadcast.message.enable
API:GraphJob.setBroadcastMessageEnable()
说明:是否启用广播消息机制,待补充介绍文档。

启用多线程compute

配置:odps.graph.computing.threads
API:N/A
说明:采用多线程执行vertex.compute(),默认是1,即单个线程

其他配置项

配置Job优先级

配置:odps.graph.job.priority
API:GraphJob.setJobPriority()
说明:设置Graph作业的优先级,默认是9,取值范围[0,9],0为最高,9为最低。下个版本考虑默认值改为0.

配置cache的资源

配置:odps.graph.cache.resources
API:GraphJob.addCacheResources()
说明:设置cache资源,通过采用命令行jar -resources来指定。

配置加入classpath的资源

配置:odps.graph.cache.resources
API:GraphJob.addCacheResourcesToClassPath()
说明:配置classpath资源,通常采用命令行 jar -libjars来指定。

启用资源预留机制

配置: odps.graph.fuxi.job.resource.all_or_nothing
API: 无
说明:  设置为true,作业提交后,如当前资源不足,Fuxi会为该作业预留资源。

Graph-LOCAL 配置项

配置local run的时候下载数据的条数

配置:odps.mapred.local.record.download.limit
API:无
说明:默认100条,最大可设置上限为1万条

请在评论中给予反馈,谢谢!

时间: 2024-09-22 12:50:53

MaxCompute-GRAPH可配置参数列表(持续更新)的相关文章

阿里巴巴大数据计算平台MaxCompute(原名ODPS)全套攻略(持续更新20171122)

  概况介绍 大数据计算服务(MaxCompute,原名ODPS,产品地址:https://www.aliyun.com/product/odps)是一种快速.完全托管的TB/PB级数据仓库解决方案.MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全.本文收录了大量的MaxCompute产品介绍.技术介绍,帮助您快速了解MaxCompute/ODPS. MaxCompute 2.0:阿里巴巴的大数

阿里云数加大数据计算服务MaxCompute学习路线图 (持续更新中)

免费开通大数据服务:https://www.aliyun.com/product/odps 最近很多客户私信来咨询如何学习阿里云数加大数据计算服务MaxCompute 技术.为此,我们列了一个路线图供大家学习大数据计算服务MaxCompute.这个列表包含了一些社区的优秀资料和我们的原创文章.我们会随着大数据计算服务MaxCompute技术的发展持续更新本文,也会在继续贡献内容来帮助同学们快速入门或持续提高. 大数据计算服务(MaxCompute) 快速.完全托管的TB/PB级数据仓库解决方案,

分享一些在java技术中的心得(持续更新)

问题描述 毕业工作2年,对这个行业感兴趣,一直想走到技术的顶峰,可是在过去的很长一段时间我都处于技术瓶颈期(感觉自己什么都会又觉得什么都不会)觉得自己很迷茫,想象和实际工作的反差让我时时感到自己的渺小(所有自己想的一切都有现成的工具或源代码)觉得自己一直在技术的门槛上得其门而不可入.如今痛定思痛觉得该是时候重新梳理一下自己的知识,去掉浮躁,静下心来找回原来那份心灵的悸动向技术的最高峰发起进攻.在这里我特将一些学习上的心得向大家分享,同时也希望大家指出我理解上的误差同时也将以此贴作为对自己的激励我

Spark配置参数

以下是整理的Spark中的一些配置参数,官方文档请参考Spark Configuration. Spark提供三个位置用来配置系统: Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置 环境变量:可以通过每个节点的 conf/spark-env.sh脚本设置.例如IP地址.端口等信息 日志配置:可以通过log4j.properties配置 Spark属性 Spark属性控制大部分的应用程序设置,并且为每个应用程序分别配置它.这些属性可以直接在Spark

给大家推荐几款个人觉得特别好用的编程及日常用的软件(持续更新!)

原文:给大家推荐几款个人觉得特别好用的编程及日常用的软件(持续更新!) 子曾经曰过:"工欲善其事,必先利其器!",呵呵,好用的软件必然会对工作和生活提高很多效率,下面我就把我个人觉得不错的软件整理出来,这里可能之前提到过几个,不过没关系,以后我再发现好用的东西会在这里持续更新! 宝典总数:[27个]  更新时间:[2015年1月29日09:04:21] ※宝典1:源代码管理软件-"CODEHELP" CodeHelp是专门为我们程序员设计的一款源代码管理软件.它能方

Hadoop-2.8.0集群搭建、hadoop源码编译和安装、host配置、ssh免密登录、hadoop配置文件中的参数配置参数总结、hadoop集群测试,安装过程中的常见错误

25.集群搭建 25.1 HADOOP集群搭建 25.1.1集群简介 HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起 HDFS集群: 负责海量数据的存储,集群中的角色主要有NameNode / DataNode YARN集群: 负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /NodeManager 25.1.2服务器准备 本案例使用虚拟机服务器来搭建HADOOP集群,所用软件及版本: ü Vmware 11.

使用ASP.NET Web Api构建基于REST风格的服务实战系列教程【开篇】【持续更新中。。。】

原文:使用ASP.NET Web Api构建基于REST风格的服务实战系列教程[开篇][持续更新中...] 最近发现web api很火,园内也有各种大神已经在研究,本人在asp.net官网上看到一个系列教程,原文地址:http://bitoftech.net/2013/11/25/detailed-tutorial-building-asp-net-web-api-restful-service/.于是打算跟着学一下,把学习过程记录在博客园的同时也分享给大家. 每一篇结束后我都会把代码共享 由于

Asp.Net Web API 2 官网菜鸟学习系列导航[持续更新中]

原文:Asp.Net Web API 2 官网菜鸟学习系列导航[持续更新中] 前言 本来一直参见于微软官网进行学习的, 官网网址http://www.asp.net/web-api.出于自己想锻炼一下学习阅读英文文章的目的,又可以学习下微软新发布的技术,其实也很久了,但自己菜鸟一枚,对自己来说都是新技术了.鉴于以上两个原因,本人打算借助google翻译和有道词典,来翻译学习这个系列,并通过博客园来记录自己的翻译学习过程.由于自己阅读水平的确太菜,在借助工具的情况下,有时候搞出来的也是蹩脚的语句,

300+篇运维、数据库等实战资料免费下载(文章+PDF+视频,持续更新)

2017年已过去一半,在此小编为大家精心整理了2017上半年热点事件解析.实战技术资料以及特别策划短视频系列,希望可以帮助大家更深入地回顾上半年的技术热点,并储备更充足的技术干粮继续2017的下一半. PART 1 峰会回顾资料 云栖大会 [上海云栖大会]2017云栖大会上海峰会资料合计(现场视频+PDF下载) [成都云栖大会]2017云栖大会成都峰会资料合计(现场视频+PDF下载) [南京云栖大会]2017云栖大会南京峰会资料合计(现场视频+PDF下载) 技术峰会 [运维/DevOps峰会]