如何构建大数据层级体系,看这一文章就够了

我先介绍一下自己:

我之前是网易的,负责整个后台,主要是网易新闻。有三亿多的用户量,这么大量的用户肯定会有很多的数据,这些数据怎么去处理、呈现、规划,让它场景化。这就是我之前所做的工作。

今天结合我自己的工作和参考一些人资料做了一些汇总,分享给大家:

下图是我之前做过的东西

第一个是银河统计系统,这是我在网易负责的一个大数据的一个统计系统。不仅是能够统计网易新闻每天的安装量、使用次数,同时也接入了十几个网易研发的产品,做这一套系统是当时比较大的收获。

第二个是网易内容发布,也就是CMS。大家在网易新闻上看到的所有内容都是从这个系统发出。当时运营、编辑给我们的提议就是我们不仅要发的准,也要让大家能够看到最及时的信息,而且要快。所以这一块也是需要一定的数据挖掘和数据处理。

第三个红演圈App。负责整个产品的前端到后端,担任产品总监这样一个职位。

这一次分享的目的是让不同角色的人了解大数据时代用过什么,怎么做。

分享大纲

我个人把公司的创建大数据体系分成6大类,从低到高是逐渐升华的过程,接下来我会介绍每一层级怎么去做,怎么去建立大数据体系。

这是我的分享大纲

第一层,要有基础的平台;

第二层,有了数据之后我们怎么去呈现;

第三层,呈现出数据之后怎么群用;

第四层,在用的过程中怎么分门别类的去细化;

第五层,怎么将我们使用的东西推广到外面去,让别人也可以用;

第六层,也就是公司高层战略决策要用到的。

一、数据基础平台

首先,最基础的数据采集平台,这一块会牵扯到一些技术方面的内容。对于概要的内容大家有一点印象就可以。

其实大家不用知道每一块的含义是什么,如果你想知道的话可以自己去百度。我这里主要讲的是你要有数据采集,数据存储,之后怎么去处理,然后怎么去使用数据,最终让我们搜集的数据和运营出来的数据达到一个循环。

无论阿里也好腾讯也好,最底层的也是使用的这个架构。采集-->存储-->分析--->呈现

这个是腾讯的数据平台

下面是我14年收集的数据,什么叫大数据,从数据的量上就是很大。

接下来是阿里这一块。


阿里和百度有一点不同在于他所需要用到的东西指向商户,包括各种各样的小商家。

所以对于阿里来说,他对数据的应用会更细,偏向于电商领域。阿里数据数量级也是很大的。

接下来是数据基础平台的变迁

过去:

我们只是简单的跑一下技术报表,会一些搜索语句,导出来之后使用办公软件处理。这是最早的处理方法,简单,但是数据存储的成本很高。

现在:

更多的是会用到一些计算,把实体资源虚拟化成数据。

未来:

智能化的数据处理方式,更快、更完善。总之随着技术变迁,数据处理这一块也会不断的发展。

二、数据报表与可视化

这里先给大家一些例子,首先是阿里。

针对数据存储的可视化的界面。

优点:

数据平台结构很清晰,用各种不同的图表去呈现现在的数据资源的存量以及数据变化的情况;其次是个人与数的据关系明确,你可以看到自己所负责的数据处理的一个情况。

缺点:

数据报表太多了,看不过来。其次就是平台访问量不高。

这是阿里数据可视化的一个呈现。具体记录各个表的存储量有多少。

更细一点的话不仅是告诉大家存储的量有多大还要说明具体关系是什么。当我在查询的一个关键词的时候都可以呈现各个表之前的关系,适合于特别大量的数据存储。

再继续,这是针对他每一个表的详细介绍。

下面来说说腾讯


腾讯会把自己的系统分为不同的平台。不同的平台会有不同的用处。

从表中可以看到腾讯对数据重视度很高。他们的数据平台相对于阿里来说简单一些。

接下来说一说第三方的数据平台

如果有不清楚的话大家可以去查一下,一些大公司的话也会去做一些开放的数据平台,比如腾讯云分析、百度统计。阿里无线数独已经关掉了,无论大的平台还是小的都对数据的重视度很高。

三、产品运营与分析

接下来通过可视化的数据运用起来。在这里只是对这一部分工作做一些介绍,点到为止。

现在一般我们运营,包括产品所做的工作都要对用户行为进行分析,通过不同的呈现方式得出不同的点击量来决策我们应该使用哪一种方案。

接下来是漏斗模型。就是走一个流程,从开始到最后用户流失的一个情况,以此来评价我们做的方案决策是否合适。

第三是收入效果的监控分析,主要是付费转化率、渠道效果数据。这会使用在和第三方的合作上,需要检测这个钱在花出去之后有没有用。

第四是业务长期健康分析。从用户流动模型、产品生命周期分析产品成长性和健康性。

最后一个是营销推广的一个实时反馈。运营的同学实在熟悉不过了。我们举办一个活动,最后我们要统计出来这个活动具体带来了多少用户,多少注册量。

接下来介绍一下怎么进行数据分析。


举一个例子,在我们做了一个新功能,怎么去验证这个功能是否合理?

事前要预测好,这个东西在上线之后会带来多少的用户,事先要有一个大概的预估。

事中,需要做到的是采集哪些数据,收集数据。比如检测一个点击按钮,用户点击了多少次,有多少用户点击了。如果检测的点多了就要用到用户的行为分析,通过用户点击的一系类的点,我们大概猜出来用户要实现什么样的功能。

最后,收集了数据之后,我们就要进行分析。用户在什么时候点击了多少次,消耗了多少的流量。通过分析我们有没有得到什么结论,包括用户是不是健康,数据是否安全,流程是否好的。这就是数据收集到之后我们要想的一些问题。

下面是YY的例子

不同的按钮,显示不同的名字可能会有多少人去点击。这个可以在web端和PC端可以很好的去实现。

漏斗模型

如果我们要做漏斗模型的话就要标识出要在哪一个部分得到一个怎么样的数据,对不同的阶段做不同的数据分析。千万不要从漏斗的点到漏斗的顶去分析,这是没有意义的。

用户的运营模型

将我们的数据模型化,通过一定的维度将用户拆分。什么样的数据属于什么样的用户。要将这些数据用来指导我们将来的工作。

这个是腾讯的用户模型分析

这是腾讯对不同的钻的会员做的分析。ppt上红色的用户喜欢QQ秀的衣服,愿意消耗多少点的Q币。通过不同运营的方法走不通的分支,去采集不同分支的数据来验证分支的走势是否真确,是否受欢迎。

这是某个公司每天持续发布的报表

做报表的目的就是每天做监控。一种是我们自己数据的变更,还有一种就是竞品数据变更。如果可以做到这两点的话对产品的迭代是有用的。

运营日报,主要是针对产品运营的人来说。

记录不同的活动带来的不同的数据。涉及用户留存,拉新等等。


又是大型的公司内部就会有专门的分析团队。

再介绍一下用的比较多的做数据分析工具,EXCEL和SPSS。我一般用EXCEL比较多一些。SPSS是面向很大数据的时候经常使用到,它数据挖掘的功能特别强大。

对于产品经理我们应该在数据运营中定位自己是一个什么样的角色。

从大的方面说,每一个公司对于产品经理的定位都至少要有一项基本技能,那就是数据的分析技能。但是从我的经验发现很多公司的产品经理在数据分析方面是非常非常弱的。

四、建设数据化的运营体系

接下来通过可视化的数据运用起来。在这里只是对这一部分工作做一些介绍,点到为止。

怎么去建议我们的BOSS去建立一个数据化的运营体系?

规范很重要,这是数据采集的一个根本东西。规范制定失败最后造成一个什么样的结果,就是A和B说的一个数据指标指向的东西不一样,比如关于活跃用户的定义,这就导致出来的数据结果不一样。

接下来是展示的平台。这需要产品知道要采集什么数据,并且把需要的数据给开发。

再往上就是数据仓库,在收集数据之后放到仓库中,去分析用户的兴趣爱好。

最后是人。专业的人做专业的事。

举一个具体的例子:腾讯

这还只是一个黄钻的运营体系建设,再接下来时腾讯的用户生命周期。

不同的时间阶段,不同的用户处于不同的生命周期。

这是营销活动运营监测的一个数据。

五、数据产品

广点通,现在已经渗入微信了。在微信后面会有大量的数据处理,他会分析不同的客户。




阿里的数据更多的涉及到商家和所买的货物。

数据魔方,主要提供行业数据分析,店铺数据分析。

百度预测:预测了一些流感,城市旅游,以及世界杯,准确度挺高的。

司南:可以用来做用户画像,人群分析。

六、战略分析与决策

最后是对于产品经理的一些建议。

七、Q&A环节

1、微信有哪些是可以用于商业化变现的?

 

微信上面承载的东西很多,那就需要看他想往哪个方向发展。微信是一个平台,对于微信本身的商业化,它更多的是买流量,据我了解现在商业化的方式是微信朋友圈广告。

后续他要做商业化,可能要往电商上发展,商业号出来之后,本身不会参与到你的运营当中,可能是会收取一些租金。但是微信不可能去做微信商城的。

2、能不能通过抓取其他站点的数据来进行数据分析?

想法和实操还是有些差距的。别人的访问量高,并不一定是单纯的因为他文章写的好,可能还会有他的一些运营手段,以及他的一些人脉,这些都会导致他的站点是比较火的。

当然内容也是不可或缺的一部分。这个方案是可行的,但是在你实际的操作的过程中可能是不一样的。建议在实操的过程中多思考,不要认为别人怎么做自己就怎么做。在抓取到的数据上做一定过滤和加工。可以去监控竞争对手的内容,考虑他们为什么要这么做。

3、怎么去测试一个应聘者在数据、运营、产品上的能力?

说句不客气的话,我特别喜欢虐应聘的。一方面是基础的一些概念他一定要懂,哪怕你可以说错,但是不要没有听说过这个概念;另外一个方面就是基本的分析方法,比如做内容方面的,怎么去评价内容的好与坏,从细节处去提问应聘者。

4、如何对微信订阅号的用户做一个分析?

一个微信公众号后台有多少关注,将用户分层,什么年龄段,用什么手机。通过调查问卷,去询问我们的用户对于什么样的内容比较感兴趣以及愿意去推广什么内容。这是简单的做法,复杂的就要涉及到假设检验。

5、网易云音乐,如何运营社区良好的讨论氛围,对于社区中的不良言论该如何屏蔽与取舍?

UGC如何做到一个良性的循环。只要是有UGC的产品都是会越到这样的问题。关于如何过滤垃圾内容、提升社区质量,大家可以到我的简书(搜索申悦)上去看我翻译的十几篇连载的文章。

B站通过注册提问提高用户门槛来提升用户,知乎之前也是提高门槛来提升用户质量。增加用户投票机制,比如知乎通过反对和赞成过滤信息,或者通过屏蔽去除劣质的内容,让用户自己去帮你筛选优质信息。第三是系统提供一些功能屏蔽过滤劣质内容,最后就是去培养一些优质的用户,让他们源源不断的为社区提供优质的内容,这个就要涉及到社区激励的机制了。

6 我们在做用户画像的时候遇到大量的数据无法下手,还有就是我们应该侧重于用户的什么属性?

一方面自己做,另一方面给第三方平台做。用第三方平台做的话只需要将数据导入给他做分析;自家做的话,要根据用户的使用场景、产品的定位来分析。

不同领域的产品所做的是不一样的。对于用户做进一步的细分,简单的方式是将自身的用户给维护好,举个例子,你想知道自己的用户他们对那些板块感兴趣,那你就要将自己的用户资料给完善(比如性别,年龄),然后分析对这些板块感兴趣这一批人。

添加老师 微信 cdagood领取价值2999元数据分析资料!!

时间: 2024-08-31 06:16:38

如何构建大数据层级体系,看这一文章就够了的相关文章

从BAT看企业构建大数据体系的六层级

文章讲的是从BAT看企业构建大数据体系的六层级,本文将企业大数据体系的构建分为六个层级,但并非是线性过程,每个层级之间或有基础关系,但并不是说一定要逐层构建.例如创业型公司,在缺乏数据研发实力的时候,多数会借助第三方平台进行数据上报与分析.下面一张图,是本文的精华概括,后面一一展开与大家探讨. 一.数据基础平台基础的数据平台建设工作,包含数据平台建设,数据规范,数据仓库.产品数据规范,产品ID,用户ID,统一SDK等.很多公司的数据无法有效利用,就是缺乏统一规范,产品数据上报任由开发按照自己的理

中国工程院院士沈昌祥:构建多层次、高质量的多重防御大数据防护体系

ZD至顶网CIO与应用频道 01月16日 北京消息:近日,由中国信息技术服务产业联盟主办,工业和信息化部软件与集成电路促进中心承办的第六届中国信息技术服务产业年会召开,探讨新常态和互联网+下信息技术服务产业的发展思路. 中国工程院院士沈昌祥认为,等级保护完全适合于大数据的处理,不同重要程度采取不同的管理安全措施来达到保障,全过程增加信息安全保障能力的. 中国工程院院士沈昌祥 以下为演讲实录: 大家已经知道了没有网络安全就没有国家安全.大数据已经成为信息行业的热题,大家都以大数据来处理各种问题.大

阿里小贷密会ISV 构建大数据商家评估体系

阿里小贷密会ISV 构建 大数据商家评估体系21世纪经济报道记者独家获悉,阿里小贷团队目前正在与电商第三方软件服务商(以下简称ISV)接触,拟将后者拥 有的商家数据,纳入发放贷款的审核数据模型中.这意味着,未来阿里小贷对商家的审核更加严格.一位不愿透露姓名的知情人士向21世纪经济报道记者透露,阿里小贷去年年底已经在讨论这个项目,今年前半年开始与阿里投资的商派.万里牛.禾唐等三四家ISV接触,并且 签订了相关协议.据了解,双方合作的基本模式为,一旦商家有贷款需求,可以向阿里提交申请和相关资料,随后

贵阳构建“大数据+教育”云服务体系 助推创新型中心城市建设

人们印象中影响学习的电子产品,搭载教学内容后,就能发挥正面作用.近日,在贵阳六中高一年级的物理课堂上,同学们就用上了Pad进行自主学习. "布置预习大纲.配套练习题.录制预习视频.查看学生完成情况.在线师生互动--这些工作在Pad教师端上都能轻松完成.在课堂上,学生通过Pad完成练习题后提交,老师能根据统计情况判断教学重点难点,不再像过去光凭经验."贵阳六中物理老师夏江说. 大数据应用于教育,能够科学分析学生的学习行为.学习程度.学习习惯,以及学校的精细化管理程度,以便为学生配置个性化

发改委:构建全国一体化国家大数据中心体系

3月17日,新华社发布<关于2016年国民经济和社会发展计划执行情况与2017年国民经济和社会发展计划草案的报告>. 报告中,发改委指出,加大对信息.民用空间.重大科技基础设施建设投入,支持北京怀柔.上海张江.安徽合肥综合性国家科学中心建设,建成一批产业创新中心,构建全国一体化的国家大数据中心体系.继续布局建设国家自主创新示范区.深入推进协同创新.扩大区域性成果转移转化试点示范,创建国家可持续发展议程创新示范区. 同时,继续实施国家科技重大专项,启动实施科技创新2030-重大项目.在重大创新领

构建“大数据+教育”云服务体系

助推创新型中心城市建设 --贵阳实施"教育立市"战略提升整体水平综述(三) 人们印象中影响学习的电子产品,搭载教学内容后,就能发挥正面作用.近日,在贵阳六中高一年级的物理课堂上,同学们就用上了Pad进行自主学习. "布置预习大纲.配套练习题.录制预习视频.查看学生完成情况.在线师生互动--这些工作在Pad教师端上都能轻松完成.在课堂上,学生通过Pad完成练习题后提交,老师能根据统计情况判断教学重点难点,不再像过去光凭经验."贵阳六中物理老师夏江说. 大数据应用于教育

构建影视产业大数据评估体系

[核心提示]通过对创作及观众收视行为分析,可以通过精准掌握某个播出渠道收视率较高的影视作品分析判断主流观众喜欢的影视剧类型,可以把握某一明星的市场关注度.媒体关注度,并根据综合数据指引影视剧生产,提高影视项目的成功率,进而避免影视资源浪费. 近年来,我国影视产业呈现高速增长态势,影视作品出品量居世界前列,与此相对,影视作品有高原无高峰的现象依然存在,我国影视产业供大于求的矛盾持续延伸,影视生产方式守旧.影视项目投资决策依赖直观感觉的情况未得到改善,急需构建基于大数据技术应用的影视评估服务体系.

佛山高新区构建大数据产业新生态

陆惠嫦 在信息技术已经成为重要业务的数字社会时代,大数据就是产业转型发展的"催化剂". 不久前,在佛山市南海区大数据及工业互联网创新应用工作推进会上,广东省经信委向南海授予了广东省大数据产业园牌匾,佛山高新区的东软华南IT创业园成为大数据产业园之一,展现园区大数据创新成果. 这已不是佛山高新区大数据产业第一次赢得关注.去年以来,佛山高新区依托东软华南IT创业园的优势资源,围绕"互联网+智能制造"产业进行布局,力求打造具有影响力的大数据技术创新地,为广东省大数据产业园

御膳房:构建大数据的美食厨房

御膳房:构建大数据的美食厨房 早在2008年,阿里巴巴即确定了云计算.大数据为中心的DT战略,并在云计算底层平台的搭建上取得了令业界瞩目的成就.同时,金币的另一面,大数据的业务尤其是基于淘宝.天猫等电子商务平台的数据业务也是风生水起,领行业之先.早期"淘宝指数"."数据魔方"不但让用户有了耳目一新的体验,更为店铺卖家提供了运营管理的数据工具.有了云计算稳定可靠.高弹性.大计算能力之后,阿里内部的大数据应用迎来了井喷式的发展. 这里我们再分享另一个基于飞天的ODPS的