数据即金钱,中小企业如何搭建数据平台分得一杯羹?

据作为企业的核心竞争力,企业的DNA。那么什么是数据呢?

 

IT时代的IT主要是信息技术,即企业的一切信息例如:企业员工信息,客户信息,产品信息等。信息主要用于描述企业员工、描述客户、产品等,通过信息可以大致了解员工,客户,产品等的基本情况。

 

DT时代的DT主要是指数据技术。数据是用来准确衡量信息的,例如公司有多少员工,本科以上占比,客户总量,区域客户量等。某种程度上可以这样理解:信息是一种概括的描述,通过信息可以描绘出企业的大概情况,而数据可以精准的描述信息,将信息量化以展示。

 

当然了,信息和数据的区别上述只是我个人的理解,在我看来,单纯区分二者的区别可能没太大的意义,将二者结合起来,迎合时代浪潮,做好向DT数据时代的过渡才是关键。

 

数据平台作为企业数据化的一个重要组成因素,必不可少。现在有很多互联网包括传统企业等都在搭建自己的企业数据平台,通过数据平台量化企业各项经营指标,深度剖析企业经营状况,为企业的科学经营提供帮助,进而实现持续盈利的目的。可以说,企业不管是做信息化还是做数据化,都是为了帮助企业科学管理,科学经营决策,都是以实现持续盈利,最大化盈利的目的。

 

什么是数据平台

 

我个人的理解是:数据平台是指将公司的所有数据以及关联数据(例如行业数据,竞争对手数据等)进行收集,按照规则处理,并根据特定的主题进行分析,展示,以便准确地剖析企业经营情况,达到指导公司科学经营和决策,并以实现企业持续盈利,最大盈利为目的。一句话,数据平台就是将企业的数据转化为盈利。数据就是金钱,已经越来越成为各个行业各企业的共识。

 

 

在信息时代,其实也有一些数据平台的影子,并且一直持续到现在,例如报表;BI;数据仓库;ETL等这些技术很多企业或多或少的都接触过一些,现在一些比较流行的词汇如数据挖掘,Hadoop,Spark,大数据等,也都是围绕数据相关的。所有这些技术有效组合,共同为数据平台建设提供技术支持。

 

如何建立数据平台

 

首先这里要与大家分享的是中小企业的数据平台搭建之路,定位于中小企业,数据远达不到海量,甚至企业都还未有历史数据的积淀。在互联网企业可能更多描述的大数据平台,数据挖掘等;而在银行,电信等大型传统企业更多的是数据仓库,BI等,这些都是与中小企业有区别的。大数据、数据挖掘等对于技术人员的技术要求比较高,大型数据仓库,专业BI软件等往往需要大量的IT资金投入。

 

而中小型企业的IT技术人员和IT投入都是短板,加之数据量本身不大,故如何搭建针对中小企业的数据平台,还需平衡好企业自身技术实力,企业数据量,企业IT投入三个主要方面。平衡好三者的关系是搭建起适合自身的数据平台的关键之一。

 

 

1 定义数据源
 

个人认为数据平台搭建的一个前提是要有原始数据的积累。正所谓巧妇难为无米炊,没有数据,数据平台何来?所以企业一定要重视数据,并积累数据。数据的来源可能是已有企业的IT系统数据库中数据,例如ERP系统中的数据、通过各种渠道收集的竞争对手数据、手动录入的数据等等,这些作为数据源,需要做到统一的整理存放。

 

2 定义数据分析主题
 

数据源有了,做饭的米有了,接下来我们要明确自己是要烧米饭还是米汤了。即我们要定义自己的分析主题,中小企业按照内部部门划分分析主题就好,一般为人力主题,财务主题,销售或市场主题,客户主题等,另外需要规划一个特别的主题,即企业驾驶舱,作为各个主题的入口,企业驾驶舱负责展示各个主题中总括的数据以及各个主题中最核心,企业领导最关心的数据等。

 

3 数据处理
 

有了数据源,有了数据主题,接下来就是要将数据源中的数据,在数据主题中进行有效的处理,这包括:抽取->转换清洗->装载(ETL的过程)。通过ETL工具抽取源数据,清洗掉无效数据,转化数据主题需要的数据,然后在装载到数据主题中,这样就可以实现有效数据从数据源到数据主题的转变。

 

4 数据展示
 

经过上述三步的处理后,数据已经存储在数据主题中,接下来就需要通过report报表工具,将主题中的数据进行展示。当然有一些报表是直接查询数据源中的数据(需求方迫切需要的),而未经过数据集市,这也是允许的,尤其是平台建设前期。

 

 

经过以上四步,可以基本搭建起数据平台的雏形,此时的数据平台更多的只是报表平台,未包含数据预测,数据监控预警,数据挖掘等深层次功能。其实在作者看来,数据平台的第一步一定是报表平台,汇总公司已有或是各部门需求的报表,进行统一整理,分类展示,然后在此基础上进行一些深层次分析的数据挖掘、预测分析等。

 

当然,上述四步并不是串行进行的,可以在定义数据源的时候一并确定好数据分析主题,在理解抽取数逻辑的时候,并行进行ETL的开发工作等。搭建数据平台,尤其是在数据平台初期,一定要有一个原则,即:快速迭代。

 

接下来我要说的数据平台搭建方法论相关,主要三点:

  1. 快速迭代
  2. 自下而上与自上而下结合
  3. 技术储备与业务规划要前瞻

 

首先快速迭代。数据平台搭建初期需要快速迭代,不断实现各个业务部门的报表需求,分析需求,通过IT技术解放各个业务部门手动出报表的重复作业,将各个业务部门吸引到数据平台上来。

 

这个阶段甚至可以牺牲报表的性能,数据的规划等(极端情况)。只有各个业务部门参与进来才能共同推动数据平台搭建,要采用自下而上与自上而下相结合的方法:“下”指数据平台建设人员,各个部门的业务同事等。“上”指IT领导,各个部门的总监领导,公司的中高层领导等。

 

数据平台的搭建一定是公司全体人员共同努力的成果,只有上下一心,共同参与,才能搭建起最符合企业自身业务实际、最有效、准确的数据平台。总的来说,数据平台的搭建需要遵循一个前提:历史数据积累;一个原则:快速迭代;贯彻一个方法:自下而上与自上而下相结合,全员参与。

 

数据平台的技术架构

 

接下来要介绍的是根据中小企业的特点,平衡了技术、投入、数据量三要素后总结出来的搭建数据平台的IT技术架构。

 

 

 

纵观该技术架构,可以看出以下特点:

 

层次性:从数据源到最后的展示分了多层,数据经过了多次转化,看似复杂,其实是将数据进行了“瘦身”,最终展示的数据可能只有几条,几十条,而这几条数据来源于多数据源,可以有效地提高最终的展示效率,全量DB的引入汇集了公司不同的数据源中数据,也统一了数据源类型;数据仓库的建立是一个循序渐进的过程,建立数据平台不能没有数据仓库,但在数据平台初期不能太过关注,否则会违反快速迭代的原则。

 

开源:数据库采用MySQL数据库,etl采用kettle,都是开源免费而且有广大用户群的技术,方便快速入手,且无经济负担。

 

时效:数据展示平台中的报表大多是非实时的展示,即从数据集市而来的,也有一部分需要实时展示的报表,这个时候采用的是直接查询数据源的方法,即图中白虚线。但当数据量增多的情况,直接查询比较缓慢,或是跨多数据源比较复杂的情况下,可以考虑一些新的实时计算的技术,例如Spark等,这在数据平台搭建的前期一般不会出现。

 

数据平台的搭建不能一蹴而就,不能作为一个短期项目,而应该作为一个长远规划、战略规划,不断迭代,不断优化等。同时也要注意时间的控制和里程碑的建立,不能三年下来还是没有数据仓库的雏形,还是没有完善的数据分析主题等。

 

随着时间的推移和数据的积累,会逐渐考虑大数据Hadoop,Spark实时计算的技术,这需要在数据平台建立的过程中循序渐进,并做好技术储备。

 

数据平台团队组建

 

明白了数据平台,懂得数据平台的建立方法,又清楚数据平台的技术架构,那么最后的执行者即数据团队如何组建呢?

 

首先数据团队的组建方式两种:一种是真实团队式,即为数据平台项目而组建的团队,从各个IT,业务部门抽取,专人专职,这种成本比较高;另一种是虚拟团队,即各个业务部门加IT团队出人,时间自由支配,给定工作量与时间节点。

 

虚拟团队成本比较低,不影响各自的正常工作,但是对员工的积极性要求比较高,所以前面讲过数据平台要全员参与,上下一心,上面跟进督促,下面环环相扣,充分把握时间与进度,完成数据平台的初期建设。数据平台经过了初期建设后,一定要有专门的团队的专业维护,这样便于以后数据分析,挖据,预测等的工作开展,也利于快速支持业务部门的需求。数据团队的演变大致如下:

 

 

刚开始的时候,只有开发跟业务人员采用,开发帮助业务人员出报表,解放业务人员的手动出报表,随着发展,后续会逐渐进入ETL工程师,数据分析师,架构师,产品经理等角色,而是数据平台的功能也由一开始的出报表逐渐转换为指导业务人员管理规划业务,慢慢成为公司或是行业的专业数据产品,进而包装成商业产品为公司实通过数据产品盈利。这是一个循序渐进的过程,不能一下子就企图招全各方面人才,否则会造成极大的人力浪费,大幅增加数据平台的成本。

 

平台搭建误区

 

数据平台的搭建其实是有一些误区的,作者结合自身经历真是企业案例,分享一下数据平台搭建的一些误区,希望能够起到警示提醒作用。

 

1 挖个大数据牛人
 

很多企业跟风搭建数据平台往往会选择从BAT等一线互联网公司高薪聘请技术人员来帮助建立数据平台,而高薪请来的人员有可能会根据以往大数据平台的经验和技术架构,建立起不符合企业现状的技术架构。

 

2 直接交给专业公司
 

直接交给专业公司,或是将整个外包出去,这也是一个常见的误区,外包公司等往往都是分期收费,按需收费,前期规划不明确,变动频繁,成本也会直线上升,更重要的是外包团队不了解企业自身的实际情况,往往做出来的数据平台不符合企业自身特点。不过专业公司,外包团队的行业经验,建设经验是很值得学习采取的。

 

3 A公司做的很好,直接COPY
 

合作单位或是其他公司做的很好,往往采用直接COPY的做法,这也是不可取的。

 

4 购买专业数据产品
 

购买专业的数据产品会提高工作效率,但是绝不会买到适合自己的数据平台,直接使用就可以。

 

综上4个误区,全是为说明一点,数据平台的搭建一定要切合企业自身的实际情况,量体裁衣,牛人的技术,专业公司的行业经验,合作单位的建设经验等都是可取,但是不能完全复制,要考量自身特点,有取有舍,循序渐进,条件允许的话利用专业的报表软件、数据产品等提高工作效率,实现数据平台的快速搭建。

 

总结

 

中小企业数据平台搭建之路漫漫,但易起步开始,初期搭建(报表平台)一般3月足够,在此基础上不断完善,将企业的数据提炼成金,为公司带来持久的最大化盈利,希望本篇文章能够为正在数据平台搭建之路上的同仁们提供帮助。

原文发布时间为:2017-01-09

时间: 2024-09-26 05:35:55

数据即金钱,中小企业如何搭建数据平台分得一杯羹?的相关文章

颠覆传统的中兴微模块数据中心 开启中小企业的大数据梦

自麦肯锡提出"大数据"之后,大数据一词被越来越多的提及,特别是随着互联网和信息行业的快速发展,大数据已经成为继云计算.物联网之后IT行业的又一个革命.面对大数据带来的冲击和其背后蕴含的巨大能量,几乎所有企业都开始意识到数据的重要性. 但是,面对呈倍数式的增长数据量,绝大多数企业的IT架构和基础设施难以承受如此大数据量的激增.因此,建立数据中心就成为为企业数据资源提供存储.运算处理场所,帮助企业在大数据竞争中占有一席之地的必然选择.不过,在大数据面前,似乎只有那些大型IT公司.金融企业有

大数据时代来临 多家银行抢占电商平台

当人们还在为"京东商城"等电商的风生水起错愕时,近期银行系又纷纷牵手电商.交通银行"交博汇"的推出,中国银行广东省行"云购物"的试水,以及民生银行.包商银行和哈尔滨银行"亚洲金融联盟"的合作,都表明银行做电商平台并非一时之兴.其中,最为抢眼的是建设银行的"善融商务". 建设银行宣称,善融商务平台以资金流.结算.信贷.支付为核心,试图对传统电子商务模式有所创新.这似乎注定了电商之战将更为硝烟弥漫. 电商的逆袭

大数据时代来临 多家银行抢占电商平台(1)

当人们还在为"京东商城"等电商的风生水起错愕时,近期银行系又纷纷牵手电商.交通银行"交博汇"的推出,中国银行广东省行"云购物"的试水,以及民生银行.包商银行和哈尔滨银行"亚洲金融联盟"的合作,都表明银行做电商平台并非一时之兴.其中,最为抢眼的是建设银行的"善融商务". 建设银行宣称,善融商务平台以资金流.结算.信贷.支付为核心,试图对传统电子商务模式有所创新.这似乎注定了电商之战将更为硝烟弥漫. 电商的逆袭

胖子哥的大数据之路(五)- 数据资源-垄断的壁垒

一.事件背景 昨天接触到一个客户,政府背景,行业应用,某部委直属的下属企业,算是垄断行业,依托政府资源,手里面掌握着全国XX行业所有的数据.原以为是大数据平台的一个营销对象,聊半天才发现,原来这也是一个被我们误认为甲方的乙方,我们反倒成了他们心目中的甲方.因为对方是想基于我们来进行数据产品的营销,当然他们只有原始数据,至于基于原始数据之上的数据分析和商业价值挖掘,包括目标客户和业务方向的定位,他们也不得而知.其实也并非无所知,基于多家厂商的咨询,积累对行业的认知已经不是什么秘密的秘密,商家出力,

优酷数据架构师:搭建Hadoop平台三步走

文章讲的是优酷数据架构师:搭建Hadoop平台三步走,2013年11月22-23日,作为国内唯一专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)将于北京福朋喜来登集团酒店隆重举行.届时,来自国内外各行业领域的近千名CIO.CTO.架构师.IT经理.咨询顾问.工程师.Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举. ▲点击进入Haoop中国技术峰会 Haoop中国技术峰会由

mysql-自己搭建云平台,怎么将网关的数据发送给hdfs进行处理

问题描述 自己搭建云平台,怎么将网关的数据发送给hdfs进行处理 具体实现细节不是很懂,现在是在本地服务器上实现的,用mysql,想将系统转移到云平台上. 解决方案 大哥,这个得调用HDFS的API接口才能实现,得调用以下几个jar包,然后在本地用java写代码才能实现本地文件上传到hadoop中. import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileStatus; import org.apa

北京Workshop准备条件:《云数据·大计算:快速搭建互联网在线运营分析平台》

实验背景介绍 了解更多2017云栖大会·北京峰会 TechInsight & Workshop. 本手册为云栖大会Workshop之<云计算·大数据:海量日志数据分析与应用>场的前提准备条件所需.主要为保障各位学员在workshop当天能够顺畅进行动手实操,那么本场需要各位学员再参加之前确保自己云账号已免费开通表格存储TableStore.大数据计算服务MaxCompute.DataWorks和Quick BI. 实验涉及大数据产品 表格存储 TableStore 大数据计算服务 Ma

未来,曙光说要像搭积木一样搭建数据中心

提到数据中心,你想到的是怎样的场景? 若干个房间内排布着一排又一排的服务器,交错的电线可能埋在了地板下方,机房永远开着冷气,每一台服务器上都闪着绿莹莹或者蓝幽幽的光,显示一切正常. 还是更酷炫一点,如同<碟中谍>5的场景中,把数据存储放在水下? 立体的数据中心 在曙光看来,绿色节能与智能化将是成熟数据中心的"标配",未来数据中心都将围绕这两个方向来优化. 曙光服务器产品事业部总经理秦晓宁在2016年中科曙光创新技术全国巡展上海站上介绍了其液冷服务器,并描绘了未来数据中心可能

全民大数据时代已来 阿里数加平台详解

文章讲的是全民大数据时代已来 阿里数加平台详解,业界流行一种说法,云计算与大数据就是一枚硬币的两面,相生相惜,不可分割.在当下互联网时代,数据的价值越来越受到社会的认可,并在今天,已然成为一种普惠资源,像水.电.能源一样支持社会发展.今天,2016年的阿里云栖大会首站在上海拉开帷幕,作为本场大会的重磅新闻,阿里云全球首发了可以提供一站式大数据处理能力的平台--"数加",并全新亮相了20款新产品,通过阿里云开放出来,让"普惠大数据"成为可能. DT时代 如何让数据从成