数据挖掘与数据化运营实战. 1.4 数据化运营的必要条件

1.4 数据化运营的必要条件

虽然从上面的分析可以看出,数据化运营有如此多的优越性,但并不是每个企业都可以采取这种新战略和新管理制度,也不是每个企业都可以从中受益。个中原因在于成功的数据化运营必须依赖几个重要的前提条件。

1.4.1 企业级海量数据存储的实现

21世纪核心的竞争就是数据的竞争,2012年3月29日,美国奥巴马政府正式宣布了“大数据的研究和发展计划”(Big Data Research and Development Initiative),该计划旨在通过提高我们从大型复杂数据集中提取知识和观点的能力,承诺帮助加快在科学和工程中探索发现的步伐,加强国家安全。从国家到企业,数据就是生产力。但是,具体到某一个企业,海量数据的存储是必须要面对的第一个挑战。数据存储技术的飞速发展,需要企业与时俱进。根据预测到2020年,全球以电子形式存储的数据量将达到35ZB,是2009年全球存储量的40倍。而在2010年年底,根据 IDC的统计,全球数据量已经达到了1 200 000PB或1.2ZB。如果将这些数据都刻录在DVD上,那么光把这些DVD盘片堆叠起来就可以从地球到月球打一个来回(单程约24万英里,即386 242.56千米)。海量的数据推动了数据存储技术的不断发展与飞跃。

我们一起来回顾一下数据存储技术的发展历程:

1951年:Univac系统使用磁带和穿孔卡片作为数据存储。

1956年:IBM公司在其Model 305
RAMAC中第一次引入了磁盘驱动器。

1961年:美国通用电气公司(General
Electric)的Charles Bachman开发了第一个数据库管理系统—IDS。

1969年:E.F. Codd发明了关系数据库。

1973年:由John J.Cullinane领导的Cullinane公司开发了 IDMS—一个针对IBM主机的基于网络模型的数据库。

1976年:Honeywell公司推出了Multics
Relational Data Store—第一个商用关系数据库产品。

1979年:Oracle公司引入了第一个商用SQL关系数据库管理系统。

1983年:IBM 推出了DB2数据库产品。

1985年:为Procter &
Gamble系统设计的第一个商务智能系统产生。

1991年:W.H. BillInmon发表了文章《构建数据仓库》。

2012年:最新的存储技术为分布式数据仓库、海量数据存储技术和流计算的实时数据仓库技术。

回首中国企业的数据存储之路,国内的数据存储技术的发展经历了将近30年,而真正的飞速发展则是最近10年。

国内的数据存储的先驱是国有银行,在21世纪初,四大国有银行的全国数据中心项目(将分布在全国各个省行和直属一级分行的数据集中到数据中心)拉开了数据技术飞速发展的帷幕。

以发展最具代表性的中国工商银行为例,中国工商银行从2001年开始启动数据集中项目,刚开始考虑集中中国北部的数据到北京,中国南部的数据到上海,最终在2004年将全部数据集中到了上海,而北京则作为灾备中心,海外数据中心则安置在深圳。中国工商银行的数据量在当时是全中国最大的,大约每天的数据量都在TB级别。由于银行业存在一定的特殊性(性能要求低于安全和稳定要求),又因为当时业内可选的技术不多,因此中国工商银行选择了大型机+DB2的技术方案,实际上就是以关系型数据库作为数据存储的核心。

在3年的数据集中和后续5年基于主题模型(NCR金融模型)的数据仓库建设期间,中国工商银行无论在硬件网络和软件人力上都投入了巨大的资源,其数据仓库也终于成为中国第一个真正意义上的企业级数据中心和数据仓库。

其他银行和证券保险,甚至电信行业以及房地产行业的数据仓库建设,基本上也都是采用与工商银行相似的思路和做法在进行。

不过,随着时间的推移,数据量变得越来越大,硬件的更新换代也越来越快,于是,这类数据仓库逐渐显现出了问题,主要表现如下:

少数几台大型机已经无法满足日益增加的日终计算任务的执行需求,导致很多数据结果为T-2(当天数据要延后2天才完成),甚至是T-3(当天数据要延后3天才完成)。

硬件升级和存储升级的成本非常昂贵,维护、系统开发以及数据开发的人力资源开支也逐年加大。

由于全国金融发展的进程差异很大,数据需求各不一样,加上成本等原因,不得不将一些数据计算任务下放到各个一级分行或者省分行进行,数据中心不堪重负。

随着互联网行业的逐渐蓬勃兴盛,占领数据存储技术领域巅峰的行业也从原有的国有银行企业转移到了阿里巴巴、腾讯、盛大、百度这样的新兴互联网企业。以阿里巴巴为例,阿里巴巴数据仓库也是经历了坎坷的发展历程,在多次重建后才最终站在了中国甚至世界的顶峰。

最开始的阿里巴巴互联网数据仓库建设,几乎就是中国工商银行的缩小版,互联网的数据从业人员几乎全部来自国内各大银行或电信行业,或者来自国外类似微软、yahoo这样的传统IT企业。

随着分布式技术的逐渐成熟和工业化,互联网数据仓库迎来了飞速发展的春天。现在,抛弃大型机+关系型数据库的模型,采用分布式的服务器集群+分布式存储的海量存储器,无论是从硬件成本、软件成本还是从硬件升级、日常维护上来讲,都是一次飞跃。更重要的是,解决了困扰数据仓库发展的一个非常重要的问题,即计算能力不足的问题,当100~200台网络服务器一起工作的时候,无论是什么样的大型机,都已经无法与之比拟了。

拿现在阿里云(阿里巴巴集团数据中心服务提供者)来讲,近1000台网络服务器分布式并行,支持着每日淘宝、支付宝、阿里巴巴三大子公司超过PB级别的数据量,随着技术的日益成熟和硬件成本的逐渐降低,未来的数据仓库将是以流计算为主的实时数据仓库和分布式计算为主流的准实时数据仓库。

1.4.2 精细化运营的需求

大数据时代的互联网行业所面临的竞争压力甚至已超过了传统行业。主要原因在于互联网行业的技术真正体现了日新月异、飞速发展的特点。以中国互联网行业的发展为例,作为第一代互联网企业的代表,新浪、搜狐、雅虎等门户网站的Web 1.0模式(传统媒体的电子化)从产生到被以Google、百度等搜索引擎企业的Web 2.0模式(制造者与使用者的合一)所超越,前后不过10年左右的时间,而目前Web 2.0模式已经逐渐有被以微博为代表的Web 3.0模式(SNS模式)超越的趋势。

互联网行业近乎颠覆性模式的进化演绎、技术的更新换代,既为互联网企业提供了机遇,又带给其沉重的竞争压力与生存的挑战。面对这种日新月异的竞争格局,互联网企业必须寻找比传统的粗放型运营更加有效的精细化运营制度和思路,以提升企业的效益和效率,而数据化运营就是精细化运营,它强调的是更细分、更准确、更个性化。没有精细化运营的需求,就不需要数据化运营;只有数据化运营,才可以满足精细化的效益提升。

1.4.3 数据分析和数据挖掘技术的有效应用

数据分析和数据挖掘技术的有效应用是数据化运营的基础和技术保障,没有这个基础保障,数据化运营就是空话,就是无本之水,无缘之木。

这里的有效应用包括以下两层含义。

一是企业必须拥有一支能够胜任数据分析和数据挖掘工作的团队和一群出色的数据分析师。一名出色的数据分析师必须是多面手,他不仅要具备统计技能(能熟练使用统计技术和统计工具进行分析挖掘)、数据仓库知识(比如熟悉主流数据库基本技术,可以自助取数,可以有效与数据仓库团队沟通)、数据挖掘技能(熟练掌握主流数据挖掘技术和工具),更重要的是他还要具有针对具体业务的理解能力和快速学习能力,并且要善于与业务方沟通、交流。数据分析挖掘绝不是数据分析师或团队的闭门造车,要想让项目成功应用,必须要自始至终与业务团队并肩作战,从这点来看,业务理解力和沟通交流能力的重要性甚至要远远超过技术层面的能力(诸如统计技能、挖掘技能、数据仓库的技能)。从之前的分析可以看出,一名出色的数据分析师是需要时间、项目经验去磨砺去锻炼成长的,而作为企业来说,如何选择、培养、配备这样一支合格的分析师队伍,才是数据化运营的基础保障。

二是企业的数据化运营只有在分析团队与业务团队协同配合下才可能做出成绩,取得效果。分析团队做出的分析方案、数据模型,必须要在业务应用中得到检验,这不仅要求业务方主观的参与和支持,也要求业务方的团队和员工同样要具有相应的数据化运营能力和水平,运营团队的人员需要具备哪些与数据化运营相关的技能呢?这个问题我们将在第4章阐述。

无论是数据分析团队的专业能力,运营团队的专业能力,还是其他业务团队的专业能力,所体现的都是互联网企业的人才价值,这个人才价值与数据的价值一样,都是属于互联网行业的核心竞争力,正如阿里巴巴集团董事会主席兼CEO马云在多个场合强调的那样,“人才和数据是阿里巴巴集团最大的财富和最强大的核心竞争力”。

1.4.4 企业决策层的倡导与持续支持

在关乎企业数据化运营的诸多必要条件里,最核心且最具决定性的条件就是来自企业决策层的倡导和持续支持。

在传统行业的现代企业里,也有很多采用了先进的数据分析技术来支持企业运营的,支持企业的营销、客服、产品开发等工作。但是总的来说,这些数据挖掘应用效果参差不齐,或者说应该体现的业务贡献价值在很多情况下并没有真正体现出来,总体的应用还是停留在项目管理的层面,缺乏全员的参与与真正跨部门的战略协调配合。这种项目层面的管理,存在的不足如下:

首先,由于参与分析挖掘的团队与提出分析需求的业务团队分属不同的职能部门,缺乏高层实质性的协调与管理,常会出现分析建模工作与真正的业务需求配合不紧密,各打各的锣,各唱各的歌。由于各部门和员工KPI考核的内容不同,数据分析团队完成的分析方案、模型、建议、报告很多时候只是纸上谈兵,无法转化成业务应用的实际操作。举个简单的例子,销售部门的年度KPI考核是销售额和付费人数,那么为了这个年度KPI考核,销售部门必然把工作的重心放在扩大销售额,扩大付费人数,维护续费人数,降低流失率等关键指标上,他们自然希望数据分析部门围绕年度(短期的)KPI目标提供分析和模型支持,提高销售部门的业绩和效率。但是数据分析部门的年度KPI考核可能跟年度销售额和付费人数没有关系,而跟通过数据分析、建模,完善产品开发与优化,完善销售部门的业务流程与资源配置等相关。很显然,这里数据分析团队的KPI考核是着眼于企业长期发展的,这跟销售部门短期的以销售额为重点的考核在很大程度上是有冲突的。在这种情况下,怎么指望两者的数据化运营能落地开花呢?

其次,因为处于项目层面的管理,所以数据分析挖掘的规划也就只能局限在特定业务部门的范围内,缺乏真正符合企业发展方向的数据分析挖掘规划。俗话说得好站得高,方能看得远,起点低,视野浅,自然约束了数据分析的有效发挥。

无论是组织架构的缺陷,还是战略规划的缺失,其本质都能表现出缺乏来自企业决策层的倡导和持续支持。只有得到企业决策层的倡导和支持,上述组织管理方面的缺陷和战略规划的缺失才可以有效避免。如前所述,2012年7月10日阿里巴巴集团宣布设置首席数据官的岗位,并将其作为企业的核心管理岗位之一,其目的就是进一步夯实企业的数据战略,规划和实施企业整体的数据化运营能力和水平,使之真正成为阿里巴巴集团未来的核心竞争力。

时间: 2024-09-11 04:28:11

数据挖掘与数据化运营实战. 1.4 数据化运营的必要条件的相关文章

数据挖掘与数据化运营实战. 3.3 运营群体的活跃度定义

3.3 运营群体的活跃度定义 运营群体(目标群体)的活跃度定义,这也是数据化运营基本的普遍的要求.数据化运营与传统的粗放型运营最主要的区别(核心)就是前者是可以准确地用数据衡量,而且这种衡量是自始至终地贯穿于数据化运营的全过程:而在运营全过程的衡量监控中,活跃度作为一个综合的判断指标,又在数据化运营实践中有着广泛的应用和曝光.活跃度的定义没有统一的描述,一般都是根据特定的业务场景和运营需求来量身订做的.但是,纵观无数场景中的活跃度定义,可以发现其中是有一些固定的骨架作为基础和核心的.其中最重要.

数据挖掘与数据化运营实战

大数据技术丛书 数据挖掘与数据化运营实战:思路.方法.技巧与应用 卢辉 著 图书在版编目(CIP)数据 数据挖掘与数据化运营实战:思路.方法.技巧与应用 / 卢辉著.-北京:机械工业出版社,2013.6 (大数据技术丛书) ISBN 978-7-111-42650-9 I. 数- II. 卢- III. 数据采集 IV. TP274 中国版本图书馆CIP数据核字(2013)第111479号 版权所有·侵权必究 封底无防伪标均为盗版 本书法律顾问 北京市展达律师事务所     本书是目前有关数据挖

数据挖掘与数据化运营实战.导读

 本书是目前有关数据挖掘在数据化运营实践领域比较全面和系统的著作,也是诸多数据挖掘书籍中为数不多的穿插大量真实的实践应用案例和场景的著作,更是创造性地针对数据化运营中不同分析挖掘课题类型,推出一一对应的分析思路集锦和相应的分析技巧集成,为读者提供"菜单化"实战锦囊的著作.作者结合自己数据化运营实践中大量的项目经验,用通俗易懂的"非技术"语言和大量活泼生动的案例,围绕数据分析挖掘中的思路.方法.技巧与应用,全方位整理.总结.分享,帮助读者深刻领会和掌握"以业

数据挖掘与数据化运营实战. 2.3 数据挖掘的主要成熟技术以及在数据化运营中的主要应用

2.3 数据挖掘的主要成熟技术以及在数据化运营中的主要应用 2.3.1 决策树 决策树(Decision Tree)是一种非常成熟的.普遍采用的数据挖掘技术.之所以称为树,是因为其建模过程类似一棵树的成长过程,即从根部开始,到树干,到分枝,再到细枝末节的分叉,最终生长出一片片的树叶.在决策树里,所分析的数据样本先是集成为一个树根,然后经过层层分枝,最终形成若干个结点,每个结点代表一个结论. 决策树算法之所以在数据分析挖掘应用中如此流行,主要原因在于决策树的构造不需要任何领域的知识,很适合探索式的

数据挖掘与数据化运营实战. 1.2 数据化运营的主要内容

1.2 数据化运营的主要内容 虽然目前企业界和学术界对于"数据化运营"的定义没有达成共识,但这并不妨碍"数据化运营"思想和实践在当今企业界尤其是互联网行业如火如荼地展开.阿里巴巴集团早在2010年就已经在全集团范围内正式提出了"数据化运营"的战略方针并逐步实施数据化运营,腾讯公司也在"2012年腾讯智慧上海主题日"高调宣布"大数据化运营的黄金时期已经到来,如何整合这些数据成为未来的关键任务". 综合业界尤其

数据挖掘与数据化运营实战. 3.1 目标客户的特征分析

3.1 目标客户的特征分析 目标客户的特征分析几乎是数据化运营企业实践中最普遍.频率最高的业务分析需求之一,原因在于数据化运营的第一步(最基础的步骤)就是要找准你的目标客户.目标受众,然后才是相应的运营方案.个性化的产品与服务等.是不加区别的普遍运营还是有目标有重点的精细化运营,这是传统的粗放模式与精细的数据化运营最直接.最显性的区别. 在目标客户的典型特征分析中,业务场景可以是试运营之前的虚拟特征探索,也可以是试运营之后来自真实运营数据基础上的分析.挖掘与提炼,两者目标一致,只是思路不同.数据

Level up!从流量经营到客户运营实战技术分享

本文将与大家分享淘宝客户运营平台--聚星台的技术架构,以及个性化访客运营算法技术和个性化营销算法技术,以及其中运用的深度学习和在线学习算法实践. 直播视频:点此进入 PDF下载:点此进入 本次分享主要分为四个部分 聚星台(客户运营平台)介绍 个性化访客运营(千人千面)算法技术 个性化营销算法技术 总结 背景介绍 今年阿里巴巴有一个非常重要的战略叫"客户运营",那么为何阿里要带领商家从流量经营转向客户运营呢?其后的大背景又是什么呢?              先看两组数据,左图在宏观层面

《草根自媒体达人运营实战》一一1.3 各种自媒体平台及优缺点

1.3 各种自媒体平台及优缺点 草根自媒体达人运营实战 我们经常说的一句话就是"金无足赤,人无完人",对于自媒体平台也是一样.每个自媒体平台都有自己的优点和缺点.我们应该根据自己的兴趣和擅长的方向,选择适合自己的平台. 博客 如果你想做自媒体,就必须依托于一个或多个平台,常见的自媒体平台包括:新浪博客.搜狐博客.网易博客.天涯博客.腾讯博客(也就是QQ空间).百度空间.独立博客,等等.当然还有一些行业博客,比如在互联网圈里面,我经常用的还有一个CSDN博客. 各种博客平台都有自身的优势

《草根自媒体达人运营实战》一一1.1 自媒体真能赚大钱?

1.1 自媒体真能赚大钱? 草根自媒体达人运营实战2013年2月,"自媒体"这个关键词在百度搜索指数里面为77,而到了2014年1月,还是这个关键词的搜索指数最高已经达到了1433. 也就是在短短一年的时间内,"自媒体"这个关键词的搜索量翻了20倍左右,可见,2014年是自媒体发展最快的一年,也是自媒体人最容易打造出自己品牌的一年.很明显,这是一个机遇,谁先进入,谁就抓住了这个机遇. 在移动互联网时代,自媒体最直接的作用就是带来粉丝效应,其实每个人心里都非常清楚,只