如何做好大数据产品设计架构和技术策略?

作者经过研发多个大数据产品,将自己形成关于大数据知识体系的干货分享出来,希望给大家能够快速建立起大数据产品的体系思路,让大家系统性学习和了解有关大数据的设计架构。

很多人都看过不同类型的书,也接触过很多有关大数据方面的文章,但都是很零散不成系统,对自己也没有起到多大的作用,所以作者第一时间,带大家从整体体系思路上,了解大数据产品设计架构和技术策略。

大数据产品,从系统性和体系思路上来做,主要分为五步:

针对前端不同渠道进行数据埋点,然后根据不同渠道的采集多维数据,也就是做大数据的第一步,没有全量数据,何谈大数据分析;

第二步,基于采集回来的多维度数据,采用ETL对其各类数据进行结构化处理及加载;

然后第三步,对于ETL处理后的标准化结构数据,建立数据存储管理子系统,归集到底层数据仓库,这一步很关键,基于数据仓库,对其内部数据分解成基础的同类数据集市;

然后基于归集分解的不同数据集市,利用各类R函数包对其数据集进行数据建模和各类算法设计,里面算法是需要自己设计,个别算法可以用R函数,这个过程产品和运营参与最多;这一步做好了,也是很多公司用户画像系统的底层。

最后根据建立的各类数据模型及算法,结合前端不同渠道不同业务特征,根据渠道触点自动匹配后端模型自动展现用户个性化产品和服务。

建立系统性数据采集指标体系

建立数据采集分析指标体系是形成营销数据集市的基础,也是营销数据集市覆盖用户行为数据广度和深度的前提,数据采集分析体系要包含用户全活动行为触点数据,用户结构化相关数据及非结构化相关数据,根据数据分析指标体系才能归类汇总形成筛选用户条件的属性和属性值,也是发现新的营销事件的基础。

构建营销数据指标分析模型,完善升级数据指标采集,依托用户全流程行为触点,建立用户行为消费特征和个体属性,从用户行为分析、商业经营数据分析、营销数据分析三个维度,形成用户行为特征分析模型。用户维度数据指标是不同维度分析要素与用户全生命周期轨迹各触点的二维交叉得出。

目前做大数据平台的公司,大多数采集的数据指标和输出的可视化报表,都存在几个关键问题:

  • 采集的数据都是以渠道、日期、地区统计,无法定位到具体每个用户;
  • 计算统计出的数据都是规模数据,针对规模数据进行挖掘分析,无法支持;
  • 数据无法支撑系统做用户获客、留存、营销推送使用;

所以,要使系统采集的数据指标能够支持平台前端的个性化行为分析,必须围绕用户为主线来进行画像设计,在初期可视化报表成果基础上,将统计出来的不同规模数据,细分定位到每个用户,使每个数据都有一个用户归属。

将分散无序的统计数据,在依据用户来衔接起来,在现有产品界面上,每个统计数据都增加一个标签,点击标签,可以展示对应每个用户的行为数据,同时可以链接到其他统计数据页面。

由此可以推导出,以用户为主线来建立数据采集指标维度:用户身份信息、用户社会生活信息、用户资产信息、用户行为偏好信息、用户购物偏好、用户价值、用户反馈、用户忠诚度等多个维度,依据建立的采集数据维度,可以细分到数据指标或数据属性项。

① 用户身份信息维度

性别,年龄,星座,居住城市,活跃区域,证件信息,学历,收入,健康等。

② 用户社会生活信息维度

行业,职业,是否有孩子,孩子年龄,车辆,住房性质,通信情况,流量使用情况……

③ 用户行为偏好信息

是否有网购行为,风险敏感度,价格敏感度,品牌敏感度,收益敏感度,产品偏好,渠道偏好……

④ 用户购物偏好信息

品类偏好,产品偏好,购物频次,浏览偏好,营销广告喜好,购物时间偏好,单次购物最高金额……

⑤ 用户反馈信息维度

用户参与的活动,参与的讨论,收藏的产品,购买过的商品,推荐过的产品,评论过的产品……

基于采集回来的多维度数据,采用ETL对其各类数据进行结构化处理及加载

数据补缺:对空数据、缺失数据进行数据补缺操作,无法处理的做标记。

数据替换:对无效数据进行数据的替换。

格式规范化:将源数据抽取的数据格式转换成为便于进入仓库处理的目标数据格式。

主外键约束:通过建立主外键约束,对非法数据进行数据替换或导出到错误文件重新处理。

数据合并:多用表关联实现(每个字段加索引,保证关联查询的效率)

数据拆分:按一定规则进行数据拆分

行列互换、排序/修改序号、去除重复记录

数据处理层 由 hadoop集群 组成 , Hadoop集群从数据采集源读取业务数据,通过并行计算完成业务数据的处理逻辑,将数据筛选归并形成目标数据。

数据建模、用户画像及特征算法

提取与营销相关的客户、产品、服务数据,采用聚类分析和关联分析方法搭建数据模型,通过用户规则属性配置、规则模板配置、用户画像打标签,形成用户数据规则集,利用规则引擎实现营销推送和条件触发的实时营销推送,同步到前端渠道交互平台来执行营销规则,并将营销执行效果信息实时返回到大数据系统。

根据前端用户不同个性化行为,自动匹配规则并触发推送内容

根据用户全流程活动行为轨迹,分析用户与线上渠道与线下渠道接触的所有行为触点,对营销用户打标签,形成用户行为画像,基于用户画像提炼汇总营销筛选规则属性及属性值,最终形成细分用户群体的条件。每个用户属性对应多个不同属性值,属性值可根据不同活动个性化进行配置,支持用户黑白名单的管理功能。

可以预先配置好基于不同用户身份特性的活动规则和模型,当前端用户来触发配置好的营销事件,数据系统根据匹配度最高的原则来实时自动推送营销规则,并通过实时推送功能来配置推送的活动内容、优惠信息和产品信息等,同时汇总前端反馈回的效果数据,对推送规则和内容进行优化调整。

大数据系统结合客户营销系统在现有用户画像、用户属性打标签、客户和营销规则配置推送、同类型用户特性归集分库模型基础上,未来将逐步扩展机器深度学习功能,通过系统自动搜集分析前端用户实时变化数据,依据建设的机器深度学习函数模型,自动计算匹配用户需求的函数参数和对应规则,营销系统根据计算出的规则模型,实时自动推送高度匹配的营销活动和内容信息。

机器自学习模型算法是未来大数据系统深度学习的核心,通过系统大量采样训练,多次数据验证和参数调整,才能最终确定相对精准的函数因子和参数值,从而可以根据前端用户产生的实时行为数据,系统可自动计算对应的营销规则和推荐模型。

大数据系统在深度自学习外,未来将通过逐步开放合作理念,对接外部第三方平台,扩展客户数据范围和行为触点,尽可能覆盖用户线上线下全生命周期行为轨迹,掌握用户各行为触点数据,扩大客户数据集市和事件库,才能深层次挖掘客户全方位需求,结合机器自学习功能,从根本上提升产品销售能力和客户全方位体验感知。 

本文作者:刘永平

来源:51CTO

时间: 2024-10-29 02:40:42

如何做好大数据产品设计架构和技术策略?的相关文章

三:基于Storm的实时处理大数据的平台架构设计

一:元数据管理器==>元数据管理器是系统平台的"大脑",在任务调度中有着重要的作用[1]什么是元数据?--->中介数据,用于描述数据属性的数据.--->具体类型:描述数据结构,数据的具体位置,数据间的依赖关系,数据的处理过程,数据的快照信息等.[2]为何要引入元数据--->实际案例:HDFS中的NameNode节点,Hive的MySql元数据表,MooseFs的Master节点,GFS(Google分布式文件系统)中的Master节点等.--->在大数据处

普元王轩:做好大数据治理,加速航空业数字化转型

9月20日,2017全球航空旅客大会在上海启幕.来自国内外政府机构.行业协会.国内外领先航空公司.机场集团等领导齐聚一堂,探讨面对全球化和数字化带来的全新挑战,在"一带一路"的时代背景下如何提高服务质量,革新航空旅客体验.普元大数据产品线总经理王轩出席会议,并发表演讲<做好大数据治理 加速航空业数字化转型>,强调航空业数字化转型,需要以大数据为驱动,做好面向业务的自服务大数据治理,上衔数据,下接用户,才能保证航空大数据的有效利用. 数字化时代席卷而来,航空业转型关键点浮出

数据产品设计的3个方法论

写这篇小文主要是因为这几年总是阴错阳差地与数据打着不大不小的交道,也是想总结一下自己对数据产品的一些思考和认识,看看自己是否真的适合在这条路上一直走下去. 何谓数据产品 按照惯例,第一次听说数据产品这个词,毫不犹豫的百度之,搜索出现了三个比较有意思的结果.其一是虎嗅网的老读悟发表的<数据产品经理的前世今生>,其二是 "最新招聘信息6136条_数据产品经理",基本属于杭州某大型互联网公司,其三是innovate511的最新微博显示"做数据挖掘研究,如果做应用产品没有

深入解析大数据虚拟化的架构(上)- 部署架构

继<零起点部署大数据虚拟化>系列教程之后,本着"知其然,亦知其所以然"的原则,本系列走进大数据虚拟化的内部,分上下两篇博文,帮助读者了解vSphere Big Data Extensions(以下简称BDE)的部署架构和系统架构,理解部署原理和内部构成,以及各自的作用.希望对您有所帮助,也欢迎您留言评价. 上: Serengeti虚拟化应用(即本文) 下: Serengeti管理服务器的系统架构 Serengeti虚拟化应用 vSphere Big Data Extensi

2012数据库与大数据产品评选结果公布

本文讲的是2012数据库与大数据产品评选结果公布,2012年12月28日消息,由盛拓传媒IT168主办的2012数据库与大数据产品年度评选于近日正式落下帷幕.本次评选分别对数据库产品和大数据产品,共选出数据库卓越产品奖.最具创新数据库产品奖.最具创新数据库产品奖.大数据卓越产品奖.最具创新大数据产品奖.最受欢迎大数据产品奖六项大奖.其中卓越产品奖和最具创新产品奖由专业评委投票选出,最受欢迎产品奖完全由网友投票产生. 此次评选共有35款产品进入候选名单,其中数据库产品20款,大数据产品15款.经过

那些拥有互联网基因的企业 为什么急需大数据产品?

大数据领域即将形成一个万亿级规模的市场. 据研究机构IDC数据显示,全球大数据与分析市场规模将由2015年的1220亿美元,在5年间成长超过50%,并在2019年底达到1870亿美元的规模. 尽管如此,这个市场目前还没有产生巨头,玩家大多数都是创业公司.例如美国的Tableau,DOMO,在中国也有几家分量相当的公司,比如海致BDP.GrowingIO等. 这些大数据的创业公司真正迎来了好时机.资本的热情从2C端全面转向2B端,企业级市场获得技术.资金.人才空前的关注.而和几年前的云计算一样,大

数据产品设计专题(3)-数据运营方法体系框架

一.数据运营方法体系: (1)核心理念:a.横向数据整合-实现跨部门.跨体系.跨公司的数据打通:b.纵向价值链打通:实现数据信息化(构建元数据管理系统).信息知识化(构建数据血缘关系和知识分享平台).知识智慧化(设计领域分析模型). (2)指导思想:a.用户思维-与一线销售/咨询紧密配合获取真实用户业务需求,以用户为中心:b.痛点思维-10/90原则,紧抓痛点,解决用户核心需求:c.迭代思维-快速就绪数据能力,迭代开发,批次上线. 二.数据产品设计方法论: (1)核心思想:引入5w+2h方法框架

数据产品设计专题(2)-数据产品设计方法论

一.前言        数据产品设计与业务产品设计差异还是比较大的,根据过往的经验,引入5w+1h分析方法,形成数据产品设计思维框架,解决数据产品经理,面相数据产品设计,无从下手的问题. 二.正文 三.解读       3.1 who - 目标用户       数据产品的目标用户是谁,此处需要注意的问题是,用户的多样性,即同一个数据产品可能有不同的用户,需要针对不同的用户分析其需求:       3.2 why - 用户痛点       数据产品要解决的用户的核心需求问题即为用户痛点,此处需要注

【阿里在线技术峰会】李金波:企业大数据平台仓库架构建设思路

本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的<企业大数据平台仓库架构建设思路>的分享整理而成.随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化.半结构化.非结构化数据的产生,越来越多的企业开始在大数据平台下进行数据处理.分享中,李金波主要从总体思路.模型设计.数加架构.数据治理四个方面介绍了如何利用大数据平台的特性,构建更贴合大数据应用的数据仓库. 直播视频: (点击图片查看视频) 幻灯片下载:点此进入 以下为整理内容. 总体思路 随着互联网规模不断的扩大,数据也在爆炸式