基于MaxCompute平台进行机器学习并展示结果

MaxCompute大数据计算服务中提供了机器学习平台,用户可基于该平台有效利用自己的数据,并从中发现价值。本文主要介绍从用户行为数据收集,到在机器学习平台中运算,最后将结果同步到RDS数据库中便于展示结果的一整个流程。本实验实现的目标是收集用户的操作行为数据,抽样一部分数据进行人工标注,标注结果为满意和不满意,用1和0表示,然后用机器学习平台对行为数据进行训练得到模型,最后以得到的模型基于用户行为预测用户对当前结果是否满意。该实践的创新之处在于借助DataHub和RDS以及任务运维将MaxCompute平台和本地项目结合起来,可自动实现模型预测。

1 用户行为数据收集

      本实验用的阿里云的DataHub收集用户行为数据。DataHub可实时收集到用户产生的行为并实时同步到MaxCompute平台中。其主要流程如下(地址为datahub.console.aliyun.com):

1.1 创建项目

       点击创建Project按钮弹出如下窗口:

                           

       输入自定义的项目名称点击创建即可。

           

 点击查看可配置项目基本信息。

1.2 创建Topic

                        

点击创建Topic,可配置同步到MaxCompute平台中哪个项目那张表的信息。其弹出的窗口如下:

                       

有两种创建方式,直接创建和导入MaxCompute表结构。建议用第二种方式,该方式可直接导入MaxCompute中的表结构,不用自己再创建表。按提示完善信息即可创建完成Topic(提示:每个空都需要填,包括最后的备注,否则不能创建)。

1.3 配置完成

       Topic创建完成,点击查看可进入下图页面,下图中已经收集了数据,点击数据抽样可查看收集的数据。Connectors中可查看连接到MaxCompute的信息。

                         

2 机器学习平台

      本实验用的逻辑回归算法对行为数据进行分类。第一步DataHub收集到数据并同步到MaxCompute中之后,即可对数据进行处理与计算。

2.1 数据预处理

       DataHub收集的用户行为数据往往不符合机器学习平台的要求,此时需要先对数据做一些预处理操作。机器学习平台组件提供了数据预处理的各种组件。

                         

为了能自动对收集的数据进行预处理,可在大数据开发套件中新建任务,设置其调度过程。其过程如下:

                        

点击新建任务:

                        

类型中有可设置需要进行的任务类型。其中创建机器学习任务是创建完成之后,选择在机器学习平台已创建的实验,然后设置调度配置,然后即可自动执行机器学习的实验。

2.2 模型训练

        数据预处理完成之后,将数据写入下图中1所表示的数据表中,然后用机器学习的写数据组件读取数据,下图为数据训练过程:

                                

上图中对数据特征进行了离散操作,然后采样部分数据用逻辑回归算法进行训练,采样部分数据进行测试,混淆矩阵可得到测试结果。

2.3 模型预测

                       

当模型训练完成之后,即可将模型用来预测。上图中1表示模型训练数据表,2表示待预测数据表,3表示预测结果存放表。

3 预测结果同步到RDS数据库

3.1 创建数据源

      大数据开发套件中的数据集成中可创建数据源,数据源的作用是将MaxCompute中的当前项目与某个数据源(如RDS数据库)联系起来:

                    

点击新增数据源:

                    

按要求填写即可创建成功。

3.2 同步数据到RDS数据库

         在大数据开发套件的数据开发中,点击新建任务,创建数据同步类型的任务:

                            

创建完成并按提示配置后如下:

                     

点击保存之后,点击提交、测试运行即可将数据即时同步到RDS数据库中。

同步到RDS数据库之后,即可从数据库中获取预测结果并展示,这样就可将项目与MaxCompute平台结合起来。

4 任务运维

      在任务运维中可设置MaxCompute中创建的各种任务的调度过程,即设置定时任务。而MaxCompute平台的各种组件,包括机器学习平台中的实验均可创建为任务,因此可用任务运维控制机器学习平台的实验自动运行。

5 总结

       本文主要介绍了DataHub收集数据,MaxCompute平台处理数据,同步数据到RDS数据库展示数据的一整个流程。展示了如何获取项目中的行为数据,用MaxCompute进行处理,然后同步到RDS数据库中,项目再从RDS数据库中获取MaxCompute的处理结果。这样就将本地的项目与MaxCompute平台完美结合起来了。

#MaxCompute最佳实践#

时间: 2024-11-03 22:02:21

基于MaxCompute平台进行机器学习并展示结果的相关文章

MaxCompute平台非标准日期和气象数据处理方法--以电力AI赛为例

摘要:MaxCompute平台支持的日期格式通常是对齐的日期格式诸如20170725或2017/07/25这种,而本次电力AI赛提供的日期格式却是未对齐的非标准(相对MaxCompute平台来说)的日期格式2016/1/1这种,使得无法直接使用ODPS SQL中的日期函数来进行处理.同时,电力AI赛提供的气象数据并不是已经数值化的数据,也使得很多团队未能将气象数据利用起来(现已公开解决方案的团队,基本上天气数据中的气象.风速和风向信息等都未使用),而气象数据通常来说对短期负荷预测具有较大的影响.

基于MaxCompute的图计算实践分享-图加载过程

免费开通大数据服务:https://www.aliyun.com/product/odps 一.前言 MaxCompute Graph 是基于飞天平台实现的面向迭代的图处理框架,为用户提供了类似于 Pregel 的编程接口.MaxCompute Graph(以下简称 Graph )作业包含图加载和计算两个阶段: 加载,将存储在表中的数据载入到内存中,以点和边的形式存在: 计算,遍历内存中的点,经过不断的迭代,直至达到迭代终止: Graph 模型有点(vertex)和边(edge)组成,以邻接表的

基于 MaxCompute 的极速的基因测序分析

转载自yizhuo 基因.测序.分析 基因,生命的基本因素,是人类和其他生物的基础遗传物质.人有 23 对染色体,总共记录了大约 3Gb 个碱基(这里的 b 是 base,即碱基,可不是 bit,参考这里),每个位置上的碱基可能是 ATCG 中的一个.简单理解起来,就是有了这 3Gb 长的字符串,就能克隆一个你.基因测序,就是用化学和物理的方法,把你身体里这 3Gb 字符串检测出来. 当然,由于受当前测序技术的限制,我们并不能一次性测得一个完整的 3Gb 字符串,而是无数个 150bp 左右长度

基于MaxCompute的图计算实践分享-解析图加载过程

免费开通大数据服务:https://www.aliyun.com/product/odps 一.前言 MaxCompute Graph 是基于飞天平台实现的面向迭代的图处理框架,为用户提供了类似于 Pregel 的编程接口.MaxCompute Graph(以下简称 Graph )作业包含图加载和计算两个阶段: 加载,将存储在表中的数据载入到内存中,以点和边的形式存在: 计算,遍历内存中的点,经过不断的迭代,直至达到迭代终止: Graph 模型有点(vertex)和边(edge)组成,以邻接表的

请问用vb+asp开发基于GIS平台建设的农业综合管理信息系统问题

问题描述 问题是下面的gis功能用vb+asp作,那种gis开发工具简单基于GIS平台建设的农业综合管理信息系统具有以下功能:更多农业GIS应用详情请查看:数据采集功能遥感数据采集模块:主要用来对地面卫星接收站传回的遥感数据进行处理.入库.GPS数据采集模块:接受和处理GPS数据.人工报送模块:接收和处理人工报送数据.动态监测功能土地变化监测模块:对数据采集系统所收集到的数据进行处理.分析.分类,抽取出土地利用与变化的相关信息进行入库.种植面积和种类监测模块:通过对数据采集系统采集到的数据进行处

艾伟:基于.NET平台的Windows编程实战(一)——前言

本系列文章导航 基于.NET平台的Windows编程实战(一)--前言 基于.NET平台的Windows编程实战(二)-- 需求分析与数据库设计 基于.NET平台的Windows编程实战(四)-- 数据库操作类的编写 基于.NET平台的Windows编程实战(五)-- 问卷管理功能的实现 基于.NET平台的Windows编程实战(六)-- 题目管理功能的实现 前言:本系列文章是一个关于.NET Windows编程的入门实战教程.通过一个完整的真实案例:问卷调查管理系统,全面展示了基于.NET平台

艾伟_转载:基于.NET平台的Windows编程实战(一)——前言

本系列文章导航 基于.NET平台的Windows编程实战(一)--前言 基于.NET平台的Windows编程实战(二)-- 需求分析与数据库设计 基于.NET平台的Windows编程实战(四)-- 数据库操作类的编写 基于.NET平台的Windows编程实战(五)-- 问卷管理功能的实现 基于.NET平台的Windows编程实战(六)-- 题目管理功能的实现 前言:本系列文章是一个关于.NET Windows编程的入门实战教程.通过一个完整的真实案例:问卷调查管理系统,全面展示了基于.NET平台

基于.NET平台的Windows编程实战(一)前言

本系列文章导航 基于.NET平台的Windows编程实战(一)前言 基于.NET平台的Windows编程实战(二) 需求分析与数据库设计 基于.NET平台的Windows编程实战(四) 数据库操作类的编写 基于.NET平台的Windows编程实战(五) 问卷管理功能的实现 基于.NET平台的Windows编程实战(六) 题目管理功能的实现 前言:本系列文章是一个关于.NET Windows编程的入门实战教程.通过一个完整的真实案例:问卷调查管理系统,全面展示了基于.NET平台的Windows编程

基于云平台的文件管理系统的设计与测试研究

基于云平台的文件管理系统的设计与测试研究 厦门大学 陈洁瑜 文件管理一直以来都是计算机领域研究的重要课题.尤其是近年来随着Internet在各个领域应用的普及和深化,人们更加迫切地需要实现一种能够在Internet上在线管理文件的应用程序,由此作为文件管理的重要分支之一的在线文件管理系统便应运而生.Web2.0和云计算时代的到来,使在线文件管理更加成为人们关注的焦点,它对于互联网文件管理发展具有重大的意义.本文主要探讨如何综合利用计算机技术.管理科学.软件工程和社交网络方法对目前国内外现有的文件