基于DataHub采集数据的营销报告分析

         本案例是基于阿里云上的DataHub收集营销数据,并通过MaxCompute对营销数据进行分析。下面主要介绍如何用DataHub收集营销数据,以及在MaxCompute中如何对数据进行分析。

1 DataHub采集数据

         阿里云的datahub提供了接口可将项目中产生的数据同步到Datahub中,并实时同步到MaxCompute项目对应的表中。下面介绍如何利用DataHub收集数据。

1.1 创建项目

         DataHub地址为https://datahub.console.aliyun.com/datahub。页面如下:

                                                                                         

         点击创建project按钮,可创建项目,窗口如下:

                                                                                        

        输入名称和描述之后点击创建可新建一个项目,刷新后会出现在项目列表中。点击查看可设置项目的各种信息。

1.2 创建Topic

        点击项目后的查看按钮,进入如下页面:

                                                                                       

        创建Topic设置同步数据到MaxCompute的数据表中。点击创建Topic,弹出页面如下:

                                                                                          

        有两种创建方式,直接创建和导入MaxCompute表结构。第一种方式需要自己填写表结构,比较麻烦,如果在MaxCompute中已经创建好了表,推荐使用导入MaxCompute表结构。按提示填写完信息即可创建成功(提示:备注也要写,否则创建按钮不可点击)。创建完成后会出现在Topic列表中。

        此时在DataHub中的配置已经完成,点击Topic后面的查看可查看配置的各种信息。如下图:

                                                                                    

                                                                                    

       点击第二张图片Connectors中的查看,弹出如下页面:

                                                                                    

        重启归档和暂停归档可设置是否将DataHub中的数据同步到MaxCompute中。

注:创建Topic的时候会设置生命周期,如生命周期为三天,表示DataHub只保存三天的数据。超过三天的数据会被删除,且不可恢复。因此需经常看看DataHub是否因未知的原因而归档失败了。因为当归档失败时,DataHub没有失败自动重启的功能,此时会一直处于失败状态,数据无法归档到MaxCompute中,超过三天数据会丢失(也可将生命周期设置的长一些)。

1.3 数据采集

         DataHub中提供了很多工具将本地项目中的数据同步到DataHub中。提供的工具如下:

                                                                                     

         点击需要用的工具即可进入帮助文档页面,按帮助文档的步骤进行操作即可。

2 利用MaxCompute进行数据分析

         用MaxCompute进行数据分析,首先需要创建odps项目,其产品名如下:

                                                                                      

       创建成功后的页面如下:

                                                                                  

       点击项目列表中的项目名即可进入项目空间(需操作不同项目空间的表需要再表前加上项目名,用“.”连接)。项目空间如下:

                                                                                  

任务开发:可创建一些定时任务,定时运行一些数据同步任务、机器学习实验、Sql语句等。

脚本开发:可写一些Sql语句对项目空间的表进行分析。

函数管理:提供了一些系统自带的函数。

表查询:可查看MaxCompute中的所有表,查看表结构及预览部分数据。

       下面介绍一下本案例的营销报告所做的工作,主要是新建一个任务,在任务中添加一些sql语句节点,定时每天跑这些任务。

2.1 创建任务

         点击新建,出现如下页面:

                                                                                 

        点击新建任务,出现如下页面:

                                                                                 

       分为工作流任务和节点任务,节点任务有如图所示的几种任务类型,顾名思义,节点任务就是只能执行一种任务类型的一个任务。而工作流任务是将节点任务连接成一个工作流,可让多个节点任务一起执行。我们这里创建工作流任务,其页面如下:

                                                                              

        创建成功后的页面如下:

                                                                              

         左边提供了节点组件。本案例的营销报告工作流如下:

                                                                                

         鼠标选择节点组件,点击右键会出现设置节点信息的菜单,如下:

                                                                       

         任务配置完成后,可在右边的调度配置中配置调度信息,如下:

                                                                           

        各种信息都设置后之后,点击菜单栏中的保存、提交即可定时执行任务,菜单栏如下:

                                                                         

        其中,测试运行可测试任务配置的是否有问题。

2.2 同步数据到RDS数据库

         用MaxCompute平台分析后的数据可同步存放到RDS数据库中,然后在本地项目即可获取分析结果。

2.2.1 新建数据源

         同步数据到RDS中需要新建数据源,将MaxCompute的项目与RDS数据库连通起来。数据源在数据集成中创建,页面如下:

                                                                        

         点击新建数据源按提示创建即可。

2.2.2 创建数据同步任务

         在MaxCompute的项目空间中新建任务,如下:

                                                                           

        此时任务类型选择数据同步。之后按提示填写即可。

3 总结

         本案例是利用DataHub采集营销数据,然后利用MaxCompute对数据定时进行分析,然后同步到RDS数据库中,供本地项目获取结果。

#MaxCompute最佳实践#

时间: 2024-09-10 17:49:51

基于DataHub采集数据的营销报告分析的相关文章

Python基于scrapy采集数据时使用代理服务器的方法_python

本文实例讲述了Python基于scrapy采集数据时使用代理服务器的方法.分享给大家供大家参考.具体如下: # To authenticate the proxy, #you must set the Proxy-Authorization header. #You *cannot* use the form http://user:pass@proxy:port #in request.meta['proxy'] import base64 proxy_ip_port = "123.456.7

IBM推出一站式分析服务 基于AI大数据平台

9月28日消息,据计算机电脑杂志报道,从很多方面来看,大数据依然属于未充分开发的前沿领域.要想从各种字节中找出有价值的洞见,依然需要敏捷的智慧与坚持不懈的精神.IBM于周二宣布推出基于AI大数据平台的一站式分析服务,希望能够更轻松地解决这些问题.IBM宣称,与其他数据平台相比,这项服务消化吸收数据的速度更快. IBM的新服务名为Project DataWorks,是基于云计算的新平台.IBM表示,它将是第一个整合所有类型数据.并利用人工智能(AI)进行分析的平台.Project DataWork

大数据时代的互联网分析引擎

随着互联网尤其是移动互联网的高速发展,互联网文档的数量.内容的丰富度和复杂度都大大增加,互联网正朝大数据时代迈进,而用户的信息需求也趋于复杂化.除了基本的信息检索需求外,对大量相关文档的深入理解与聚合分析的需求也越来越强烈,而传统的互联网搜索引擎已经无法满足人们对该类信息的需求.针对这一问题,提出"互联网分析引擎"的构想,阐述了其与搜索引擎和OLAP分析系统的区别,介绍了一种互联网分析引擎的架构,并详细讨论了实现该引擎的核心问题. 1 引言 随着移动互联网.智能手机.社交媒体.自媒体技

基于单采集器实现的多种流协议分析

网络业界基于流(Flow)的分析技术 主要有NetFlow.sFlow.cFlow和NetStream四种.NetFlow是Cisco公司的独有技术,它既是一种流量分析协议,又是一种流交换技术,同时也是业界主要的IP计费方式.通过NetFlow可以回答有关IP流量方面的问题,比如谁在什么时间.在什么地方.使用何种协议.访问谁.具体的流量是多少等.Netflow协议的主要版本有V5.V8和V9.其中应用较为广泛的是V5和V8版本.NetFlow凭借Cisco网络产品市场占有率的优势而成为当今应用最

数据堂:大数据产业调研及分析报告(145页)

大数据的概念已渗透到各行各业,全球大数据市场规模年增长率达40%,预计在2017年将达530亿美元.各行业的大数据运用分析到底如何?本期大数据文摘跟您分享数据堂的<大数据产业调研及分析报告>,报告大数据产业链划分(彭博)为框架,对国内外大数据产业链条进行了全面梳理,收录了近300余家国内大数据企业和应用. 报告目录如下: 大数据引发了全球范围内深刻的技术与商业变革,已经成为全球发展的趋势以及国家.企业间的竞争焦点,直接关系到国家安全.社会稳定.经济发展和民生幸福等诸多方面.我国在经历了30多年

如何更有价值采集数据、高效分析数据?

上回说到,用户行为数据的意义和价值<为什么要做用户行为分析?>,以及互联网产品用户模型的构建,这其中就包含了对数据的采集和分析两大块儿,本文将从数据采集的三大要点.如何让分析更有价值更高效.以及数据分析思维三部分展开聊. 一.数据采集的三大要点 1.全面性 数据量足够具有分析价值.数据面足够支撑分析需求. 比如对于"查看商品详情"这一行为,需要采集用户触发时的环境信息.会话.以及背后的用户id,最后需要统计这一行为在某一时段触发的人数.次数.人均次数.活跃比等. 2.多维性

如何更有价值采集数据、高效分析数据?

上回说到,用户行为数据的意义和价值<为什么要进行用户行为分析?>,以及互联网产品用户模型的构建,这其中就包含了对数据的采集和分析两大块儿,本文将从数据采集的三大要点.如何让分析更有价值更高效.以及数据分析思维三部分展开聊. 一.数据采集的三大要点 1.全面性 数据量足够具有分析价值.数据面足够支撑分析需求. 比如对于"查看商品详情"这一行为,需要采集用户触发时的环境信息.会话.以及背后的用户id,最后需要统计这一行为在某一时段触发的人数.次数.人均次数.活跃比等. 2.多维

2010中国企业网络营销现状分析报告——即将出炉

中介交易 SEO诊断 淘宝客 云主机 技术大厅 2010中国企业网络营销现状分析报告 目录: 前言 一:网络营销在中国 二:企业网络营销现状 三:搜索引擎营销应用 四:B2B网络贸易应用 五:其他营销工具 六:企业对于网络营销的认知 七:搜索营销之弊端 八:B2B网络贸易根本 九:网络营销趋势 十:写在最后 正文: 前言 笔者从事互联网工作两年有余.自认为对于如今企业间互联网营销略知一二,贸然落笔,如有谬论但请直言. 互联网,在笔者眼中就是金庸老爷子笔下的江湖:派别林立,正邪难辨.三大门户网站鼎

关于举办“天德π客”创业论坛——“基于阿里云的大数据实践—海量日志分析”的通知

随着互联网.云计算.物联网.社交网络等技术的兴起和普及,全球数据的增长快于任何一个时期,可以称作是爆炸性增长.收集大量数据,并在数据中发现趋势,能使企业能够更快.更平稳.更有效地发展.然而,大数据对许多企业和数据专业人员来说,它仍然很难理解,那么,什么是大数据分析?如何利用阿里云数加平台进行海量数据分析,帮助企业更好地利用数据资源?"天德π客"众创空间特举办本期论坛--"基于阿里云的大数据实践--海量日志分析",邀请华北电力大学电力系统及其自动化博士,阿里云大数据高