一篇文章解决你所有关于数据分析的问题!

1. 数据分析多层模型介绍

这个金字塔图像是数据分析的多层模型,从下往上一共有六层:

底下第一层称为Data Sources 元数据层。

比如说在生产线上,在生产的数据库里面,各种各样的数据,可能是银行的业务数据,也可能是电信运营商在交换机里面采集下来的数据等等,然后这些生产的数据通过ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,通过这个过程,我们可以把需要的数据放到数据仓库里面,那这个数据仓库就是多层模型中的第二层。

数据仓库主要是给我们需要存放的数据提供一个物理基础,我们对数据进行分析,原材料都放在这个数据仓库里面,这几年以来,除了数据仓库这个概念,还兴起了数据集市这个概念,数据集市其实就是部门级的数据仓库,规模比较小一点的数据仓库。

再上面一层是Data Exploration,这层主要做统计分析的事情,比如我们算均值、标准差、方差、排序、求最小\大值、中位数、众数等等,这些统计学比较常用的指标,另外还有些SQL查询语句,总的来说主要是做一些目标比较明确,计算方法比较清楚的事情。

第四层是Data Mining数据挖掘层,数据挖掘与数据分析(统计分析)有什么区别呢,数据分析往往是统计量和算法比较清楚,数据挖掘往往是目标不是很清楚,在实现目标的过程中采用什么方法不能确定,所以数据挖掘比数据分析难度要高很多。

第五层是数据展现层,把数据分析和数据挖掘得出来的结果通过数据展现层的图表、报表把他展现出来,也可以称为数据可视化。

最后把这些图表、报表交给决策者,以这个为基础做一些决策。

2. 数据分析工具简介

常用的数据分析工具,包括一些厂商的数据库产品,包括IBM的DB2、甲骨文的Oracle数据库。这些厂商的数据库本身带有一些统计分析的包,里面有些标准的功能可以做数据分析工作,但用这些自带的数据分析工具功能相对不够专业。主要反映在缺乏标准的统计函数,比如做一个线性回归模型,需要写一大堆SQL语句,甚至要写一个plsql程序才能完成。但是在专业的统计软件只需要写一个简单的函数就可以完成。

目前最主流的统计软件有R、SAS、SPSS,R是一个免费的开源软件。

SAS大概是历史最悠久的统计软件,是一个商业软件,在60年代就诞生,在70年代以后逐渐商业化,发展到现在SAS已经成为国际标准。

SPSS也是一个历史悠久的统计软件,SPSS一开始是一个仿真软件,后来演变成一个统计软件,目前已经发展成为一个数据挖掘软件,目前被IBM收购,变成IBM旗下的一个产品,在社会学研究院领域有很多的应用。

其他的还有一些软件,比如说水晶报表(Crystal Reports),在做BI和报表非常擅长,另外如UCINET也是在社会学比较常用的软件,它可以画群体的网络图,社交关系图非常擅长。

3. 常用统计方法

使用统计方法,有目的地对收集到的数据进行分析处理,并且解读分析结果:

常用算法

4. 数据挖掘

数据挖掘是以查找隐藏在数据中的信息为目标的技术,是应用算法从大型数据库中提取知识的过程,这些算法确定信息项之间的隐性关联,并且向用户显示这些关联。

数据挖掘思想来源:假设检验,模式识别,人工智能,机器学习

常见数据挖掘任务:关联分析,聚类分析,孤立点分析等等

例:啤酒与尿布的故事

5. 展现层:报表与图形

展现层在数据分析中是一个很重要的组成部分,在大家的心目中数据分析软件只是读数据和算数据,结果算出来就OK了。但其实结果算出来以后对于数据分析还远没有结束,还需要把结果展现出来,有些时候可能结果的展现比计算花的时间还要多。

下图是一个比较老土的报表。

如果那这种报表给老板看,那体验效果肯定很差,其实人的特点对数字的感觉不敏感,如果你那一大堆数字组成的报表给老板看,老板肯定不是很高兴。

人对图形会比较敏感,所以在统计学里面通常有比较标准的图,如饼图、柱形图(垂直和水平)、虚线图、水泡图、鱼骨图、箱线图等等。

下面是一张在地图上展现数据的展现形式

下图是关于使用安卓手机的数据展现

根据信息图显示,Android先生的头发有47%的可能是黑色的,戴眼镜的几率为37%,有36%的可能是北美人,30%的可能脸上长雀斑。71%的时 间会穿T恤,下身穿牛仔裤的时间占了62%。工作只占了38%,玩游戏却占了62%,平均每个月会用掉582MB的数据流量。这种图称为信息图,在数据分析这个行业里面,是数据展现工作的主要组成部分。

本文作者:datakong

来源:51CTO

时间: 2024-10-27 15:54:57

一篇文章解决你所有关于数据分析的问题!的相关文章

一篇文章了解爬虫技术现状

本文讲的是一篇文章了解爬虫技术现状, 需求 万维网上有着无数的网页,包含着海量的信息,无孔不入.森罗万象.但很多时候,无论出于数据分析或产品需求,我们需要从某些网站,提取出我们感兴趣.有价值的内容,但是纵然是进化到21世纪的人类,依然只有两只手,一双眼,不可能去每一个网页去点去看,然后再复制粘贴.所以我们需要一种能自动获取网页内容并可以按照指定规则提取相应内容的程序,这就是爬虫. 原理 传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的

一篇文章告诉你如何成为数据科学家

文章讲的是一篇文章告诉你如何成为数据科学家,通常来说,年轻人都很容易立志成为什么,例如成为一名科学家,然后又很快放弃.这一方面是因为摆在他们面前的诱惑太多,也因为成为一名科学家真的很不容易. 这一点放在数据科学上尤其突出.实际上,近年来随着数据科学和机器学习的火爆,我们经常能遇到刚毕业的大学生立志成为数据科学家,但很快又放弃的例子.究其原因,我认为在很大程度上是因为要成为一名真正的数据科学家,需要掌握的专业知识实在是太多了:包括计算机科学.编程基础.数学知识.机器学习算法甚至商业洞察力等等. 看

新站一篇文章一天100多IP给站长朋友的启示

一个网站关键词的挖掘.布局和优化是站长朋友必须解决的问题,我们都知道流量大的网站,不仅仅是那几个热门的关键词带来的流量,长尾关键词带来的流量也是相当大的,对于关键词的挖掘站长朋友都有自己的一套方法,除了前期利用工具外,后期还可以通过后台流量统计发现一些有价值的关键词.通过对网站的优化,总结出了一些关于关键词优化的一些想法,首先来分享下自己的案例: 每天更新文章是站长朋友对于网站优化必须坚持的一件事,我选择的的时间是每天晚上,因为白天需要上班,只能利用晚上的时间去更新下网站文章和外链建设这块,因为

一篇文章彻底搞懂Android事件分发机制

本文讲的是一篇文章彻底搞懂Android事件分发机制,在android开发中会经常遇到滑动冲突(比如ScrollView或是SliddingMenu与ListView的嵌套)的问题,需要我们深入的了解android事件响应机制才能解决,事件响应机制已经是android开发者必不可少的知识.面试找工作的时候也是面试官经常会问的一个问题. 涉及到事件响应的常用方法构成 用户在手指与屏幕接触过程中通过MotionEvent对象产生一系列事件,它有四种状态: MotionEvent.ACTION_DOW

一篇文章看懂Android学习最佳路线

前言 看到一篇文章中提到"最近几年国内的初级Android程序员已经很多了,但是中高级的Android技术人才仍然稀缺",这的确不假,从我在百度所进行的一些面试来看,找一个适合的高级Android工程师的确不容易,一般需要进行大量的面试才能挑选出一个比较满意的.为什么中高级Android程序员不多呢?这是一个问题,我不好回答,但是我想写一篇文章来描述下Android的学习路线,期望可以帮助更多的Android程序员提升自己.由于我也是从一个菜鸟过来的,所以我会结合我的个人经历以及我对A

一篇文章读懂Java类加载器

Java类加载器算是一个老生常谈的问题,大多Java工程师也都对其中的知识点倒背如流,最近在看源码的时候发现有一些细节的地方理解还是比较模糊,正好写一篇文章梳理一下. 关于Java类加载器的知识,网上一搜一大片,我自己也看过很多文档,博客.资料虽然很多,但还是希望通过本文尽量写出一些自己的理解,自己的东西.如果只是重复别人写的内容那就失去写作的意义了. 类加载器结构 类加载器结构 名称解释: 根类加载器,也叫引导类加载器.启动类加载器.由于它不属于Java类库,这里就不说它对应的类名了,很多人喜

一篇文章带你了解Paxos算法

本文讲的是一篇文章带你了解Paxos算法,[编者的话]本文是Quora上关于Paxos算法的回答,两位答者分别从不同的角度描述Paxos算法.Vineet Gupta的回答细致入微,更偏向理论.Russell Cohen用具体的例子讲解Paxos算法,相辅相成. Vineet Gupta的回答 有很多关于一致性(consensus)问题的解决方案,而这些解决方案中,我认为Paxos相对来说很好理解. 『达成一致性』最简单的例子就是结婚誓词: "你愿意......."(男:)"

一篇文章看懂阿里钉钉发展史

一篇文章看懂阿里钉钉发展史 责任编辑:editor005 |  2016-09-15 21:52:53 本文摘自:凤凰科技 2014年5月26日 阿里巴巴钉钉创始人陈航(花名:无招)带领其他6位员工组成创始团队进驻湖畔花园,这群旨在探索更好工作方式的人,在阿里内部开始了疯狂纯粹的尝试,研发工作商务领域的沟通.协同多端平台. 2015年1月16日 钉钉1.0版本正式上线,正式进入企业级市场.提供PC版,Web版和手机版,支持手机和电脑间文件互传.突破了很多传统企业级应用的局限,打通了移动网络和运营

一篇文章为你解读大数据的现在和未来

大数据的发展前提 关于大数据的概念其实在1998年已经就有人提出了,但是到了现在才开始有所发展,这些其实都是和当下移动互联网的快速发展分不开的,移动互联网的高速发展,为大数据的产生提供了更多的产生大数据的硬件前提,比如说智能手机,智能硬件,车联网,pda等数据的产生终端.这些智能通过移动通信技术和人们的生活紧密的结合在一起,在人流.车流的背后产生了信息流,也就产生了大量的数据. 其次就是移动通信技术的快速发展,在2G时代,无线网速慢,数据产生也非常慢,数据体量也不够,所以还是无法形成大数据,而到