关于PAI平台的几点建议

接触PAI平台也快1年了,感觉PAI平台应用起来很强大,很方便。而且2017 年 3 月 29 日,阿里云重磅推出升级版的机器学习平台 PAI 2.0,可以大幅度降低人工智能门槛以及开发成本。PAI 2.0 提供 100 余种算法组件,涵盖了分类、回归、聚类等常用场景,还针对主流的算法应用场景,提供了偏向业务的算法,包含文本分析、关系分析、推荐三种类别。

PAI 2.0 新增了参数服务器(Parameter Server)架构的算法。不仅能进行数据并行,同时还可将模型分片,把大的模型分为多个子集,每个参数服务器只存一个子集,全部的参数服务器聚合在一起拼凑成一个完整的模型。其创新点还在于失败重试的功能。在分布式系统上,成百上千个节点协同工作时,经常会出现一个或几个节点挂掉的情况,如果没有失败重试机制,任务就会有一定的几率失败,需要重新提交任务到集群调度。PS 算法支持千亿特征、万亿模型和万亿样本直至 PB 级的数据训练,适合于电商、广告等数据规模巨大的推荐场景。

从操作界面来看,PAI 没有繁琐的公式和复杂的代码逻辑,用户看到的是各种分门别类被封装好的算法组件。每一个实验步骤都提供可视化的监控页面,在深度学习黑箱透明化方面,PAI 也同时集成了各种可视化工具。

PAI平台现在用起来已经很方便了,不过我希望最好还能增加以下一些优化的小功能。

1,图形界面的算法导出代码,或者查看界面的代码的功能。图形界面虽然操作起来很方便,可是如果是需要经常变换特征,调整参数等工作,用图形界面要挨个点每个控件,操作起来比较繁琐。而如果直接写代码的话,则需要查找每个空间的名称,参数等等,也比较繁琐。所以如果能先用图形界面建立算法,然后导出成代码,在IDE里面慢慢调整特征、参数,应该是比较理想的一种做法。

2,希望能支持简单的变量。一个简单的例子,对于如下代码:

--模型训练

drop offlinemodel if exists  GBDT_test_model_v1;

drop table if exists GBDT_test_model_Importance;

PAI -name gbdt_lr -project algo_public -DfeatureSplitValueMaxSize="500" -DrandSeed="0" -Dshrinkage="0.05" -DmaxLeafCount="32" -DlabelColName="lable" 

-DinputTableName="portscan_train" 

-DoutputImportanceTableName="GBDT_test_model_Importance" 

-DminLeafSampleCount="500" -DsampleRatio="0.6" -DmaxDepth="6" -DmetricType="0" 

-DmodelName="GBDT_test_model_v1" 

-DfeatureRatio="0.6" -DtestRatio="0" 

-DfeatureColNames="sip_client_ip_n,sip_client_ip_dn_cnt,sip_connect_n,sip_connect_n_max,sip_hashuserid_dn,sip_connect_n_avg,port" 

-DtreeCount="250";

--模型预测

drop table if exists portscan_pre_result;

PAI -name prediction -project algo_public -DdetailColName="prediction_detail" -DappendColNames="client_port,source_ip,ds" 

-DmodelName="GBDT_test_model_v1" 

-DitemDelimiter="," -DresultColName="prediction_result" -Dlifecycle="28" 

-DoutputTableName="portscan_pre_result" 

-DscoreColName="prediction_score" -DkvDelimiter=":" 

-DfeatureColNames="port,sip_client_ip_n,sip_client_ip_dn_cnt,sip_connect_n,sip_connect_n_max,sip_hashuserid_dn,sip_connect_n_avg" 

-DinputTableName="portscan_test" 

-DenableSparse="false";

模型和预测都要用到特征列名称,如果能定义变量,比如:

DEF FeatureCols="port,sip_client_ip_n,sip_client_ip_dn_cnt,sip_connect_n,sip_connect_n_max,sip_hashuserid_dn,sip_connect_n_avg" 

那么这个算法后面每个需要特征列的地方都可以直接用:

-DfeatureColNames=FeatureCols

修改起来会更方便,也不容易出错。

时间: 2024-08-03 10:01:41

关于PAI平台的几点建议的相关文章

【玩转数据系列十二】PAI平台深度学习Caffe框架实现图像分类的模型训练

PAI平台深度学习Caffe框架实现图像分类的模型训练 背景 我们在之前的文章中介绍过如何通过PAI内置的TensorFlow框架实验基于Cifar10的图像分类,文章链接:https://yq.aliyun.com/articles/72841.使用Tensorflow做深度学习做深度学习的网络搭建和训练需要通过PYTHON代码才能使用,对于不太会写代码的同学还是有一定的使用门槛的.本文将介绍另一个深度学习框架Caffe,通过Caffe只需要填写一些配置文件就可以实现图像分类的模型训练.关于P

大规模深度学习优化技术在PAI平台中的应用及实践

1. 前言 自2012年Deep Learning的代表模型AlexNet在ImageNet大赛中力压亚军,以超过10个百分点的绝对优势夺得头筹之后,依托于建模技术的进步.硬件计算能力的提升.优化技术的进步以及海量数据的累积,Deep Learning在语音.图像以及文本等多个领域不断推进,相较于传统作法取得了显著的效果提升.   工业界和学术界也先后推出了用于Deep Learning建模用途的开源工具和框架,包括Caffe.Theano.Torch.MXNet.TensorFlow.Chai

阿里云机器学习平台——PAI平台

在云栖TechDay第十五期活动上,阿里云iDST资深技术专家褚崴给大家带来了<阿里云机器学习平台>的分享,他以机器学习的概念入手展开了此次分享,演讲中他重点介绍了阿里云机器学习平台的基础架构和产品特点,并结合阿里内部的芝麻信用分.推荐系统等场景讲解了PAI平台的具体应用方案. 下文根据褚崴的演讲内容整理.   机器学习 图一 机器学习分类 机器学习简单来说就是,人教机器在我们积累的数据当中发现规律,然后能够辅助我们来做一些预测和决策. 机器学习笼统地讲可以分为三类: 1)有监督学习(supe

【阿里云MVP月度分享】基于PAI平台和Pokemon数据集判断精灵是否为极品精灵

一.背景 Pokemon<精灵宝可梦>,也叫<口袋妖怪>.<宠物小精灵>.<神奇宝贝>,是由Game Freak和Creatures株式会社开发,任天堂发行的系列游戏.精灵宝可梦系列是世界上第二热销的系列电子游戏,仅次于任天堂的超级马里奥系列. 本文采用kaggle上Pokemon数据集,基于阿里云PAI平台进行实验,利用数据集中提供的精灵能力值来判断精灵是否为极品精灵. 数据集包含No, Name, Type1, Type2, HP, Attack, De

给微信公众平台发展的一些建议

微信公众平台,目前处于微妙的状态中,进攻乏力而又后退不能.没有给公众号带来实质性利益,无法获得公众号持有方的鼎力支持,所以进攻乏力;O2O这条路已经开始出发,背后有腾讯电商部门的利益诉求,一时之间不会停止,所以后退不能.抛开所谓闭环O2O等概念不谈,单就产品存在的使命而言,微信公众平台为公众号和用户创造了哪些价值呢?对企业而言,主要目标有3个:获得新客户.维系老客户.提高客户消费.维系老用户的过程也是为了提高客户消费.公众平台可以做消息推送和商品优惠,能帮助获得多少新用户呢?就我个人运作的实际经

百度站长平台升级页面优化建议工具 给出官方Seo建议

中介交易 SEO诊断 淘宝客 云主机 技术大厅 近期,百度站长平台对"URL优化建议"工具(http://zhanzhang.baidu.com/tools/optimization)进行了全新升级,升级为全新的"页面优化建议工具".用此工具可查询页面的优化状况,并可获得关于页面打开速度以及优化评级的相关打分,根据百度提供的官方优化建议,更好的运营优化您的网站页面,提升用户体验和对搜索引擎友好度.网站管理员可登陆百度站长平台(http://zhanzhang.bai

大宗商品加速与电商平台对接,专家建议应警惕“泡沫先于发展”

钢铁等大宗商品流通正加速与电商平台对接,这一势头牵涉国内生产资料领域的流通改造,具有战略意义.但是,最近接受记者采访的多位业内人士均提醒,应警惕这一改造过程陷入"泡沫先于发展"的尴尬局面,逆了大宗商品电商化的"顺势". 争夺大宗商品贸易主导权 "生产资料领域企业间B2B电商业的潜在体量,是目前十分耀目的消费品领域,B2C (企业与消费者间)电商业根本无法相比的.B2B一旦兴起,其规模和效应将是十分惊人的."在今年早些时候一次行业研讨会上,工信部信

百度站长平台新版“页面优化建议工具”

最近百度站长工具中新出现了一个"页面优化建议工具"也就是以前的SEO建议工具,以前检测的内容很少这次似乎完善了些.打开工具后看到官方对工具的简介:书写良好.格式规范的网页,能够帮助用户更加了解网页,对搜索引擎更加友好.这项工具可以检测网页是否对搜索引擎友好并给出建议.这个工具能帮我们检测什么东西?我就用"北京SEO网站关键词优化研究中心"这个网址来做测试"我们看图: 百度"页面优化建议工具"给出评分:   百度"页面优化建议工

阿里大航杯AI电力大赛比赛分享及数加平台,机器学习pai使用经验

1. 背景 本文以阿里大航杯AI电力大赛为背景,讲述数加平台及机器学习pai的使用.大赛聚焦电力市场营销活动业务难点--企业用电需求预测,开放了扬中市高新区1000多家企业的历史用电量数据,要求参赛者通过模型算法精准预测该地区下一个月的每日总用电量.2. 数据介绍 本次竞赛主要数据源为企业用电量表Tianchi_power2,阿里云抽取了扬中市高新区的1000多家企业的用电量(数据进行了脱敏),包括企业ID(匿名化处理),日期和用电量.具体字段如下表: 考虑到天气对企业用电量的影响,同时也提供了