数据分析的一些常见问题

数据分析和数据挖掘,是大数据应用的核心技术,也是大数据应用的关键所在。

数据分析重要,但是,很多时候却不知道该如何去做,面对大量的数据,却无从下手。概括起来,经常面临的困难有:

  • 分析目的不明确
  • 分析方法不清晰
  • 分析过程不清晰
  • 分析思路不完善
  • 解读数据能力差

1、 不知道要分析什么?(分析目的)

不知道要分析什么,也就是分析目的不明确。

经常有学员告诉我,领导给了一大堆数据给我,要我分析一下,但我不知道要分析什么?除了基本的统计求和,我不知道要干吗。

明确分析目的,这是数据分析的起点,也是分析的终点。所有的分析工作都应该围绕业务问题开始,分析的结果最终也要落到业务问题。

如果目的不明确,后续的分析工作就无法开展了。

2、 下一步做什么?(分析过程)

数据分析不是一个单一的操作,而是一套复杂和完整的操作流程。

一般地,一个完整的数据分析包括了六个步骤,后一个步骤依赖前一个步骤,也是前一个过程的深入。

当有了分析目的之外,接下来就需要围绕业务问题来收集相关的数据,并对收集来的数据进行预处理(清洗、转化、提取、计算),如果使用FineBI之类的BI工具来处理的话就是先抽取数据、ETL处理数据,然后在前端多维度分析,并对分析结果进行可视化,最后形成一个完整的分析报告,到此,一个数据分析的工作才算正式完成。

3、 不知道怎样去分析?(分析方法)

分析目的明确了,数据也有了,但面对大量的、复杂的数据,却无从下手,不知道怎样分析,这是由于分析者缺乏对分析方法的了解。

数据分析最核心的工作,就是对数据进行分析。围绕业务问题,采用什么样的分析方法,使用什么样的分析模型,选择什么样的分析工具,这是数据分析的核心。这是分析师的必备技能。

为了便于理解,我将数据分析分为三个层次,从低到高,由浅入深,分别是统计分析,基本分析,数据挖掘。

一般情况下,企业有80%的工作都只需要掌握统计分析方法就可以了,剩下20%的工作需要更深入的分析及挖掘。当然,更深层次的业务规律及业务模式,需要更高层次的数据分析来解决。比如,市场细分,客户特征提取,等等。

4、 看不明白分析结果?(数据解读)

好不容易分析有结果了,统计有数据了,但是,这些数据及分析结果表示什么意思呢?与我们的业务有什么关系呢?这一步也不知道坑了多少学员。

对数据不敏感,解读数据的能力差,无法将分析结果与业务问题和业务策略关联起来,这是数据应用的最大障碍。

如何来解读数据,解读分析结果,这需要有一定的数据解读方法,也需要分析师要了解相应的业务逻辑。

5、 不知道分析是否全面?(分析思路)

我经常收到一些分析师的抱怨,他们说,基本的分析我都会了,但是,每次提交分析报告给领导以后,领导总是不太满意,说我分析不全面,漏此漏那的。分析不全面,这是由于缺乏分析思路导致的。

如果说,分析方法是从微观从细节来对数据进行分析,那么,分析思路,就是从宏观角度指导如何进行数据分析,比如从哪几个方面来进行完整的数据分析而不会遗漏。

要掌握分析思路,需要分析师懂业务、懂管理、懂营销。比如,如果要分析企业的外部环境,你必须要懂得PEST模型,即要从政策、经济、社会和技术四个方面来进行分析,否则就是不全面的;如果要做竞争分析,你需要懂得SWOT、波特五力,从这几个方面来分析竞争态势,才算完整和系统。

最简单,最实用的是5W2H模型,广泛用于企业营销活动、用户行为分析等专题分析中,即要求分析的从下面7个方面来进行分析,这样可以确保能够将用户购买行为分析完整、系统。

数据分析看起来很简单,但如果没有经过系统的培训,要胜任这项工作也是不容易的。毕竟,数据分析师作为企业主管的智囊,作为主管决策的支撑,其重要性及高要求是不言而喻。

本文作者:西湖小霸王

来源:51CTO

时间: 2024-09-20 10:40:35

数据分析的一些常见问题的相关文章

【Python数据挖掘课程】二.Kmeans聚类数据分析及Anaconda介绍

        这次课程主要讲述一个关于Kmeans聚类的数据分析案例,通过这个案例让同学们简单了解大数据分析的基本流程,以及使用Python实现相关的聚类分析.         主要内容包括:         1.Anaconda软件的安装过程及简单配置         2.聚类及Kmeans算法介绍        3.案例分析:Kmeans实现运动员位置聚集         前文推荐:[Python数据挖掘课程]一.安装Python及爬虫入门介绍         希望这篇文章对你有所帮助,尤

《R语言数据分析》——导读

前 言 自20多年前发源于学术界以来,R语言已经成为统计分析的通用语言,活跃于众多产业领域.目前,越来越多的商业项目开始使用R,兼之R用户开发了数以千计易于上手的开发包,都使得R成为数据分析工程师及科学家最常用的工具. 本书将帮助读者熟悉R语言这一开源生态系统,并介绍一些基本的统计背景知识,以及一小部分相关的数学知识.我们将着重探讨使用R语言解决实际的问题. 由于数据科学家在数据的采集.清洗及重构上将耗费大量时间,因此本书首先将通过第一手实例来重点探讨从文件.数据库以及在线资源中导入数据的方法,

Apache Spark技术实战(四)spark-submit常见问题及其解决 &CassandraRDD高并发数据读取实现剖析

<一>spark-submit常见问题及其解决 概要 编写了独立运行的Spark Application之后,需要将其提交到Spark Cluster中运行,一般会采用spark-submit来进行应用的提交,在使用spark-submit的过程中,有哪些事情需要注意的呢? 本文试就此做一个小小的总结. spark-defaults.conf Spark-defaults.conf的作用范围要搞清楚,编辑driver所在机器上的spark-defaults.conf,该文件会影响 到drive

大数据安全分析常见问题汇总

大数据是时下最火热的IT行业的词汇,随之数据仓库.数据安全.数据分析.数据挖掘等等围绕大数量的商业价值的利用逐渐成为行业人士争相追捧的利润焦点. 本人在与用户沟通大数据问题时经常会遇到一些问题,现将这些常见问题汇总,抛砖引玉,希望可以帮助到大家. 1. 大数据安全分析的核心目标是什么? 应答:为了能够找到隐藏在数据背后的安全真相.数据之间存在着关联,传统分析无法将海量数据汇总,但是大数据技术能够应对海量数据的分析需求.通过大数据基础能够挖掘出APT攻击.内网隐秘通道.异常用户行为等安全事件.在此

过快、过量、过度:三类数据驱动型决策中的常见问题(附大量资源)

在大数据的时代,很多公司通过采用数据驱动方式进行决策.在本文中我想谈一下我们在数据分析过程中三种常见失误:过快--急于求成.过量--图囵吞枣.过度--信息过载. (注:本文附大量外链资料,建议先收藏再查看) ◆ ◆ ◆ 过快:急于求成 还没找到实际问题就提出解决方案 不要担心在定位问题上花费太多时间.关于越早开始行动,越能提前完成项目的理论不一定正确,如果未能充分理解关键问题可能会浪费更多时间.无论你是在思考一个新的产品特性,对公司未来发展方向的战略决策,建立机器学习模型,还是给你的同事写邮件,

利用大数据分析挖掘出的五大安全线索

越来越多的CSO们开始依靠数据分析来从海量数据中发现新的安全威胁,并且越来越多的企业IT部门开始利用安全分析技术,信息安全专业人员已经开始从安全分析有所收获.其中最明显的是对IT安全数据来源更广泛和更深入的可视性,这能够通过数据分析来更好地了解安全风险以及实现更快的响应时间. 随着安全分析技术不断成熟,企业会惊喜地发现对安全相关数据的系统分析能够为他们挖掘出很多有价值的信息,下面是5个从安全分析中挖掘出的信息: 1.发现你永远想象不到的数据泄漏 安全分析技术给你带来的第一个惊喜是让你发现想象不到

【收藏】5W+条海内外网络数据分析得出首份《顶级数据团队建设全景报告》,直击数据团队建设现状及问题

我的公司是否需要独立的数据团队? 我该何时.怎么样建设自己的数据团队? 数据团队的价值如何衡量? 针对这些业内普遍存在的数据团队建设问题,7月11日,技术联盟伙伴--大数据文摘联合清华数据科学研究院重磅发布首份<顶级数据团队建设全景报告>(下称<报告>). 历时3个月的调研,<报告>囊括50,000+条海内外网络数据分析.1,000+份调查问卷内容,和10位海内外业界大咖深度访谈内容,针对"数据团队建设现状"和"数据团队建设要素"

Python股市数据分析教程——学会它,或可以实现半“智能”炒股 (Part 1)

本文由北邮@爱可可-爱生活 老师推荐,阿里云组织翻译. 以下为译文 本篇文章是"Python股市数据分析"两部曲中的第一部分(第二部分的文章在这里),内容基于我在犹他州立大学MATH 3900 (Data Mining)课程上的一次讲座.在这些文章中,我将介绍一些关于金融数据分析的基础知识,例如,使用pandas获取雅虎财经上的数据,股票数据可视化,移动均线,开发一种均线交叉策略,回溯检验以及基准测试.第二篇文章会介绍一些实践中可能出现的问题,而本篇文章着重讨论移动平均线. 注意:本篇

大数据分析平台Hadoop与Spark之争

ZD至顶网软件频道消息 原创文章(文/邓晓蕾): 有人把大数据称为信息资产.有人称为金矿.甚至社会财富.而大数据,即,无法在可承受的时间范围内用常规软件工具进行捕捉.管理和处理的数据集合.Gartne认为"大数据"是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产.大数据并不在"大",而在于"有用".价值含量.挖掘成本比数量更为重要.对于很多行业而言,如何利用这些大规模数据是成为赢得竞争的关键.大数据