从0到1构建数据生态系列:数据价值挖掘

这估计《从0到1构建数据生态系列》的最后一篇,主题是数据价值。

在之前,我们所有做的一切一切,都是基础,那么其最终的目的是什么?

当然,结果很明显,就是数据价值,那么,作为数据生态的最上层,所谓的数据价值又是以什么形式体现的呢?

BI体系

在 大数据职位画像–看看你是不是白混了贼多年 这篇对于大数据职位分析的文章中,我们知道,大数据中很大一部分人的角色定位就是“数据分析”。

对应的职位岗位的名称也多样,“数据分析师”,“大数据分析师”,“BI数据分析”,“BI工程师”等等,五花八门。

这些岗位对应所创造的最上层数据应用价值就是,意图通过数据分析的手段,来带数据化的运营监测,数据化的决策指导,以及趋势性的预测等等。

对于前一点,即数据化的运营,这是最常规的应用手段,通过数据的反馈情况,进行运营策略的动态修正,以期获取最大化运营效果。

对于上层来说,他需要把控公司企业整体的事态走向,来制定未来的战略规划,这也是数据分析带来的好处。

通常,我们在构建起数据生态链路之后,第一需要支撑的就是BI分析体系,用于运营以及决策。

此外,结合分析以及深化一些的数学模型,我们还可以做到一些趋势性的预测,对于未来的策略做更进一步的指导,这就属于BI体系更深入的应用了。

画像体系

除了BI体系之外,画像体系是上层应用的重要核心支持,在此之上可以演变各种有效的实际业务应用。

所谓画像体系,即一方面是指针对于公司用户构建起能够全面描述用户特征的用户画像,另一方面,对于实体目标,即除了用户之外的实体,我们同样可以构建起画像,例如品牌画像,内容画像,产品画像等等。

基于这些画像,我们其实是可以做很多事的。

例如针对于电商,我们可以结合推荐系统,做更个性化的商品推荐;结合活跃时段,地域,购物特征等,进行更加个性化的推送服务,以及做个性化的EDM等;又诸如品牌画像,可以更好的为品牌进行制定推广策略;针对产品画像,剖析产品结构,优化产品内部逻辑,指导产品快速迭代等等。

画像是基石,在基石之上可以做更多可扩展性的实际应用,当然,前提是你的画像维度足够丰富,属性足够准确。

并且,需要注意的一点就是,我们在构建画像体系的时候,对于画像维度进行分层次的拆解,有助于我们填充画像属性,以及更好的实用指导。

至于说如何填充画像的属性,其实方法就很多了,部分是很明显的属性,部分是统计维度的属性,部分是需要通过机器学习以及挖掘的手段进行获取。

当然,更多的细节我们就不放在这里讨论了。

推荐系统

在网络兴起之前,用户能够接触到的信息实体(所谓信息是泛指,商品之类的也算)都是通过线下的实际展示,能够直接获取的范围有限。

在网络兴起之后,虚拟空间的概念兴起,信息实体可以放在虚拟空间中,这意味着实体(包括商品等一系列相关实体)的数量可以无限扩充。

在很早之前,用户获取信息的主要手段有两种:结构化的目录导航,搜索。

但在虚拟空间的兴起之后,随着海量实体的增长,这种以用户主动触发为主的获取实体模式弊端越来越大:筛选时间变长、可选项增大带来选择困难现象。

在时间成本越来高的现在,必然追求更加高效的实体信息获取方式,最本质的目的是:缩短用户与目标实体之间距离,减少无效信息的获取,以及提升效率。

所以,以个性化被动信息推动为模式的推荐系统则受到了欢迎。

而推荐系统,在是建立在数据的基础上,融合适应场景的各种模型算法,最终以精准信息推送为目的,提升用户的点击转化,或者其他更明确的商业目的。

推荐系统是数据得以应用的最常见的方式之一,也算是在国内应用的相对成熟的场景。

数据时代的搜索引擎

就信息检索来说,搜索引擎早就存在,而且一直存在,但早期的搜索引擎只有一个目的,那就是检索与检索词相关的信息。

这里所说的相关,纯属于信息实体属性相关。当然,这样做当然是无可厚非的,信息检索的本质本来就是检索相关的信息。

但随着数据进一步应用,以及机器学习等技术的推广,搜索引擎的模式也在悄然发生改变,只是你或许并没有过多关注而已,只是感觉搜索越来越好用了。

我们知道,中文博大精深,一句话,稍微改动一下,或者说重新组织一下,意思都可能发生巨大的变化,甚至是相同的一个词,理解的角度不同,其意义都是不相同的。

在过去,这种情景是很难处理的,而如今,随着对数据的进一步应用,以及算法模型的进一步开发,搜索意图识别已经算是“正经”搜索引擎的标配了。

除此之外,还有诸如搜索纠正,相关搜索推荐等基本的优化点,用于提升用户的体验。

最大的改变在于,过去的搜索是一个“点”,而现在的搜索结果是一个“面”。

所谓的“点”即是你所搜索直接关注的目的,也就是信息本身,而“面”则是一个多维结构,在你关注的点的同时,扩散所有的相关信息。

这就是知识图谱在搜索中的应用,产生的搜索结果是一整个相关的知识图谱结构。

实现业务的数据化、自动化、智能化

相对于上面描述的几个相对明确的数据价值应用,这里描述的就相对于偏业务层,并没有说具体涉及到某种模型,具体的算法,而是一种业务驱动模式。

我们希望通过数据,能够构建起业务驱动的自动化流程,并且这整个业务流程是可数据化观测的,然后在一些关键环节是可以智能化运作的,这样就能够提升业务的精准性。

当然,更重要的是提升商业转换价值。

期间,我们可以利用各种统计分析的手段,让业务流转是可以数据可观测的,也可以通过诸如画像属性的进一步业务化,也可以使用诸如推荐、预测等相关相对底层的技术,甚至是可以利用更复杂的神经网络深度学习等自动学习、自动优化的手段。

关键在于使用数据,再结合机器学习的手段来优化整个流程,这才是我们所需要的。

结语

最后,随着数据的价值在逐渐被挖掘,上层将会越来越多的应用模式被探索出来。

但可以预见的是,数据价值的使用,必然会从单纯的数据本身价值,逐渐延伸到更多的其他方面,而作为数据价值探索的手段,机器学习相关的技术和数据的结合也会越来越紧密。

本文作者:blogchong

来源:51CTO

时间: 2024-09-22 05:32:13

从0到1构建数据生态系列:数据价值挖掘的相关文章

一图读懂大数据生态 大数据地图3.0

文章讲的是一图读懂大数据生态 大数据地图3.0,2012年,FirstMark资本的Matt Turck绘制了大数据生态地图2.0版本,涵盖了大数据的38种商业模式,被业界奉为大数据创业投资的清明上河图.两年后的今天,经过漫长的等待,Turck终于推出大数据生态地图3.0版本.(期间bloomberg推出过一个2013版大数据生态地图) 在大数据生态地图3.0版中,Turck从一个风险投资者的角度对两年来大数据市场的最新发展进行了深入的研判,并对未来趋势进行解读,以下是Turck眼中大数据市场的

从0到1构建大数据生态系列1:数据蛮荒中的拓荒之举

缘起   我们都知道,当前大数据的需求基本属于遍地开花.无论是帝都.魔都,还是广州.深圳,亦或是全国其他各地,都在搞大数据:不管是不到百人的微小公司,还是几百上千人的中型公司,亦或是上万的大型公司,都在需求数据岗位.   大公司暂且不论,他们一切都走在前头.那么,对于中小型企业来说,开始尝试以数据的思维去思考问题,开始涉足大数据领域,这就是一个从0到1的过程了.   有(bu)幸(xing),近半年来,我亲自见证以及亲身体会到了这个过程,或者至今仍然在完善1这个过程中.期间,有痛苦有坑.有喜悦有

从0到1构建数据生态系列(二):拆解架构蓝图

一.结合业务需求拆解架构图   先把上一章已经讲过的架构图再贴一次:     整体架构说明  从架构图中可以看出,在我们整个数据架构中,需要做的事情很多.随着数据的流向,从下到上,主要分三层:   第一层是数据收集层,负责基础数据的收集工作: 第二层是数据存储与处理层,负责数据存储.对数据进行深度处理.转换及价值的挖掘等: 最上层是应用层,基于下面的数据处理,进行价值转换:还有贯穿整个过程的监控以及任务调度相关的工作.   第一层中,主要有四个数据来源:用户行为埋点上报数据.服务日志的数据.后端

从数据来源、数据生态、数据技术、数加平台等方面,漫谈阿里大数据

目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象.我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的大数据,不是几篇文章就能说清楚的. 一,DT时代 大数据这个概念,其实在上世纪九十年代就有人提出来了,当时希望通过将所有零散的数据归并起来,然后进行数据挖掘,以看到以前存在的问题,去预测未来几年的趋势,来指导商业决策.比如保险行业,人寿保险会通过大数据的统计计算,根据人均寿命来计算保费与回报率. 这

互联网金融2.0:数据生态与战略制高点

雷锋网(公众号:雷锋网)按:本文作者黄亮新,产品经理.科技观察者.微信公众号:蓝狐笔记(ID:lanhubiji). 近年来互联网金融一直是创业和投资热点,包含P2P网贷.理财平台.智能投顾.在线支付.金融超市.股权众筹等诸多模式,仅2015年全球范围内金融科技获得投资的总额就达到惊人的138亿美元,在中国也达到了27亿美元.这个过程中涌现了不少独角兽企业,比如蚂蚁金服.陆金所.51信用卡.趣分期.玖富金融.宜人贷等.当然更多的中小金融科技企业,仅仅是P2P平台,据第三方平台网贷之家资料显示,截

青海省构建沃云数据生态链联盟 助力大数据信息产业

青海省经济和信息化委员会指导,青海联通与青海省计算机学会联合主办的2016年云计算.大数据技术应用研讨会23日在青海西宁举办.中新网记者获悉,包括华为.中兴在内的中国国内多家互联网信息公司联手构建青海省沃云数据生态链联盟,共同助力青海省大数据信息产业的发展. 随着物联网.云计算.移动互联网等信息智能技术的飞速发展,大数据已经渗透到当今每一个行业和业务领域. 青海省地域辽阔.电力充足.气候冷凉.区位特殊,具有发展大数据产业的独特优势.近年来,青海省围绕"一带一路"愿景建设,紧抓"

运用大数据构建“数字生态”体系

近日,我市制定<生态文明体制改革实施方案>,确立了生态文明建设的"六大制度体系板块",将运用大数据构建"数字生态"框架体系. <方案>全面贯彻中央和省生态文明建设"八大制度",将其中涉及贵阳市的45项改革任务进行对口归纳.在此基础上,提出了贵阳市生态文明建设的"六大制度体系板块",即城乡建设管控制度体系.绿色产业发展制度体系.自然资源管理制度体系.生态和环境保护制度体系.生态文化制度体系.生态文明建设绩

使用Hive构建数据库 备战大数据时代

当您需要处理大量数据时,存储它们是一个不错的选择.令人难以置信的发现或未来预测不会来自未使用的数据.大数据是一个复杂的怪兽.用 Java 编程语言编写复杂的 MapReduce 程序要耗费很多时间.良好的资源和专业知识,这正是大部分企业所不具备的.这也是在 Hadoop 上使用诸如 Hive 之类的工具构建数据库会成为一个功能强大的解决方案的原因. Peter J Jamack 是一名大数据分析顾问,拥有超过 13 年的商业智能.数据仓库.分析.大数据和信息管理方面的经验.他将结构化和非结构化数

华为与英特尔构建全融合大数据存储解决方案

IDC预测,全球数据总量将在2020年达到40ZB.40ZB的数据量是什么概念呢? IDC给出了一个比喻:如果把一粒沙子当做一个字的话,40ZB的数据量相当于地球上所有海滩上沙子数量的57倍;40ZB的数据量相当于667千亿部高清影片,一个人每天24小时连续不断地看,看完这些电影需要5万6千亿年;目前我们对地球年龄的估值是45.5亿年,意味着,如果这个人从地球诞生的时候就开始看电影,现在他只看完了这些电影总数的万分之八(0.0008).而这些数据,每两年还将翻一番,呈指数级增长态势.大数据将以一