数据分析工作常见的七种错误及规避技巧

商业领域的数据科学家和侦探类似:去探索未知的事物。不过,当他们在这个旅程中冒险的时候,他们很容易落入陷阱。所以要明白,这些错误是如何造成的,以及如何避免。


 “错误是发现的入口。”——James Joyce (著名的爱尔兰小说家)。

这在大多数情况下是正确的,但是对于数据科学家而言,犯错误能够帮助他们发现新的数据发展趋势和找到数据的更多模式。说到这儿,有一点很重要:要明白数据科学家有一个非常边缘的错误。数据科学家是经过大量考察后才被录用的,录用成本很高。组织是不能承受和忽视数据科学家不好的数据实践和重复错误的成本的。数据科学的错误和不好的数据实践会浪费数据科学家的职业生涯。数据科学家追踪所有实验数据是至关重要的,从错误中吸取教训,避免在未来数据科学项目中犯错。

福尔摩斯有一句名言是如何定义侦探的,而数据科学家在商业中的角色就类似侦探。

“我是福尔摩斯,我的工作就是发现别人不知道的。”

企业要想保持竞争力,它必须比大数据分析做的更多。不去评估他们手中的数据质量,他们想要的结果,他们预计从这种数据分析中获得多少利润, 这将很难正确地找出哪些数据科学项目能够盈利,哪些不能。当发生数据科学错误时——一次是可以接受的——考虑到有一个学习曲线,但是如果这些错误发生在两次以上,这会增加企业成本。

在Python中学习数据科学,成为企业数据科学家。

避免常见的数据科学错误:

1、相关关系和因果关系之间的混乱

对于每个数据科学家来说,相关性和因果关系的错误会导致成本事件,最好的例子是《魔鬼经济学》的分析,关于因果关系的相关性错误,导致伊利诺斯州给本州的学生发书,因为根据分析显示家里有书的学生在学校能直接考的更高分。进一步分析显示,在家里有几本书的学生在学业上能表现的更好,即使他们从来没有读过这些书。

这改变了之前的假设和洞察:父母通常买书的家庭,能营造愉快的学习环境。

大部分的数据科学家在处理大数据时假设相关关系直接影响因果关系。使用大数据来理解两个变量之间的相关性通常是一个很好的实践方法,但是,总是使用 “因果”类比可能导致虚假的预测和无效的决定。要想实现利用大数据的最好效果,数据科学家必须理解相关关系和根源的区别。关联往往是指同时观察X和Y的变化,而因果关系意味着X导致Y。在数据科学,这是两个完全不同的事情,但是许多数据科学家往往忽视了它们的区别。基于相关性的决定可能足以采取行动,我们不需要知道原因,但这还是完全依赖于数据的类型和要解决的问题。

每位数据科学家都必须懂得——“数据科学中相关关系不是因果关系”。如果两个关系出现彼此相关的情况,也不意味着是一个导致了另一个的产生。

2、没有选择合适的可视化工具

大部分的数据科学家专心学习于分析的技术方面。他们不能通过使用不同的可视化技术理解数据,即那些可以令他们更快获得洞察力的技术。如果数据科学家不能选择合适的可视化发展模型,监控探索性数据分析和表示结果,那么即使是最好的机器学习模型,它的价值也会被稀释。事实上,许多数据科学家根据他们的审美选择图表类型,而不是考虑数据集的特征。这个可以通过定义可视化的目标避免。

即使数据科学家开发了一个最优秀和最好的机器学习模型,它也不会大叫说“尤里卡”——所有这些所需要的是结果的有效可视化,可以理解数据模式的不同,和意识到它的存在可以被利用来获得商业成果。常言道“一张图片胜过1000个单词。”——数据科学家不仅要熟悉自己常用的数据可视化工具,也要理解数据有效可视化的原理,用令人信服的方式获得结果。

解决任何数据科学问题的至关重要一步,就是要获得该数据是关于什么的洞察力,通过丰富的可视化表达,可以形成分析基础和建立相应模型。

3、没有选择适当的模型-验证周期

科学家认为,建立了一个成功的机器学习模型,就是获得了最大程度的成功。但是,这只是成功了一半,它必须要确保模型的预测发挥作用。许多数据科学家经常忘记或者倾向性的忽视这样的事实,就是他们的数据必须在指定的时间间隔进行反复验证。一些数据科学家经常犯的一个普遍性错误:如果和观察到的数据吻合,就认为预测模型是理想的。已建立的模型的预测效果可以因为模型的关系在不断变化而瞬间消失。为了避免这种情况,数据科学家最好的解决方式就是每个小时都对含有新数据的数据模型进行评分,或者基于模型的关系变化快慢逐日逐月评分。

由于几个因素,模型的预测能力往往会变弱,因此数据科学家需要确定一个常数,用以确保模型的预测能力不能低于可接受的水平。有实例即数据科学家可以重建数据模型。能建立几个模型和解释变量的分布总是更好的,而不是考虑单个模型是最好的。

为了保留已建模型的预测效果和有效性,选择迭代周期是非常重要的,如果做不到,可能会导致错误的结果。

4、无问题/计划的分析

数据科学协会主席Michael Walker说: “数据科学的最高级用途就是设计实验,提出正确的问题和收集正确的数据集,一切工作都要根据科学的标准。然后你将获得结果,并解释它。”

数据科学是一个结构化的过程,以明确的目标开始,随后出现一些假设的问题,最终实现我们的目标。数据科学家往往站在数据之上而不考虑那些需要分析回答的问题。数据科学项目必须要有项目目标和完美的建模目标。数据科学家们如果不知道他们想要什么——最终得到的分析结果将会是他们不想要的。

大多数数据科学项目最终是回答“是什么”的问题,这是因为数据科学家通过手头的问题作分析而不遵循做分析的理想路径。数据科学是使用大数据回答所有关于“为什么”的问题。数据科学家应该通过整合以前未被整合的数据集,主动分析给与的数据集,回答以前没人解答的问题。

为了避免这种情况,数据科学家应该集中精力获得正确的分析结果,这可以通过明确实验,变量和数据准确性和清晰明白他们想要从数据中获得什么实现。这将简化以往通过满足假设的统计方法来回答商业问题的过程。引用伏尔泰的一句话——“判断一个人,是通过他的问题而不是他的答案。”——先确定明确的问题是及其重要的,能够实现任何企业的数据科学目标。

5、仅关心数据

根据博思艾伦咨询公司的数据科学家Kirk Borne,“人们忘记在数据的使用,保护以及统计产生的问题如认为相关关系就是因果关系会产生伦理问题。人们忘记了如果你处理的数据足够长,它就会告诉你任何事,如果你有大量的数据,那么你就可以找到相关关系。如果人们拥有大数据他们会相信他们看到的任何事情”。

数据科学家常常因为得到来自多个数据源的数据而兴奋,并开始创建图表和可视化来做分析报告,忽视发展所需的商业智慧。这对任何组织来说都是危险的事情。数据科学家经常给与数据太多决策制定的权力。他们不够重视发展自身商业智慧,不明白分析如何令企业获益。数据科学家应该不仅仅让数据说话,而且善于运用自身的智慧。数据应该是影响决策的因素而不是数据科学项目决策制定的最终声音。企业雇佣的数据科学家应该是可以将领域知识和技术特长结合起来的,这是避免错误的理想情况。

6、忽视可能性

数据科学家经常倾向性忘记方案的可能性,这将导致作出更多的错误决策。数据科学家经常犯错,因为他们经常说,如果企业采取了X操作一定会实现Y目标。对于特定的问题这没有唯一的答案,因此要确认数据科学家从不同可能性中所做的选择。对指定问题存在不止一个可能性,它们在某种程度是不确定的。情景规划和可能性理论是数据科学的两个基本核心,不应该被忽视,应该用以确认决策制定的准确性频率。

7、建立一个错误人口数量的模型

如果一个数据项目的目的是建立一个客户影响力模式的模型,但是他们仅仅考虑那些具有高度影响力的客户的行为数据,这不是对的做法。建立该模型不仅要考虑那些具有高度影响力的客户的行为数据,也要考虑那些不怎么有影响力但是具有潜在影响力的客户的行为数据。低估任何一边人口的预测力量都可能导致模型的倾斜或者一些重要变量的重要性下降。

这些都是数据科学家在做数据科学时常见的错误。如果你能想到的任何其他常见的数据科学错误,我们很乐意在下面的评论听到你的想法。

本文作者:佚名

来源:51CTO

时间: 2024-10-31 06:43:06

数据分析工作常见的七种错误及规避技巧的相关文章

实例分析URL结构规划中常见的三种错误

我们的站点结构是有一系列的URL地址组成的.站点的URL结构关系到整个站点的优化命脉.或许很多seoer都会遇到内容质量已经够高,外链也不输人,但是偏偏就是页面不收录,或者收录得很少.其实很多的原因还是出在站点的URL结果上,本文中笔者将根据自身遇到的情况,分析三种常见的URL结构错误. 一:URL地址长度问题 我们的URL地址是否对搜索引擎优化,会直接影响到站点的收录量.URL地址可以分为动态.静态以及伪静态地址.除去动态页面,我们可以说静态和伪静态页面还是对搜索引擎相对友好的.而在这三种地址

ASP中实现分页显示的七种方法_应用技巧

在微软的ASP编程体系中,ADO对象的建立,使得从网页访问数据库成为一件易事,特别是ADO的Recordset对象使得控制数据的输出显示更为方便.自由.而在Visual InterDev6.0(以下简称VI6.0)中,由于Script Object Model(以下简称SOM).Design-Time Control(以下简称DTC)以及Data Environment Object Model(以下简称DEOM)等对象模型的引入,使网页对数据库的访问设计显得更为方便. 因为主题方面的原因,关于

js刷新框架子页面的七种方法代码_javascript技巧

面以三个页面分别命名为framedemo.html,top.html,button.html为例来具体说明如何做. 其中framedemo.html由上下两个页面组成,代码如下: 复制代码 代码如下: <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"> <HTML> <HEAD> <TITLE> frameDemo </TITLE> </HEAD&

Excel使用中常见的七种公式错误及其解决方法

  我们在日常使用excel办公软件时,可能会遇到一些错误信息,例如:#value!.# n/a!. #div/o!等等.这也使得一些只懂得应用该软件的朋友们,常常是一头雾水,不知道出了什么问题,或者该如何处理.其实,出现这些错误的原因有很多种,今天软件直销网就着重为大家介绍几种常见的错误信息以及其解决方法. 一:#value! 当我们在使用excel时,如果使用了错误的参数或运算对象类型时,或者当公式自动更正功能不能更正公式时,将产生错误值#value!.主要原因有以下三种: 1:在需要数字或

网站优化过程中我们最常见的几种错误

做了这么久的网站优化,遇到了各种不一样形形色色的错误.想必各位网站的优化者也一样.同样在网站优化过程中会遇到这样或者是那样的错误问题.网站优化本来就是一件复杂而又繁琐的事情.它没有任何固定的样式和规律.我们大多数的网站优化者都是依靠自己的经验去实践.那么难免会碰到一些问题,那么接下来我们就讨论一下在网站优化过程中所经常性遇到的问题,从中自然会对我们以后的网站优化工作有所帮助引导. 网站优化不是一蹴即就的事,做任何事情都是没那么简单的.网站优化更是如此.它没有固定的格式模板可以参考,它是迅速变化并

网站SEO优化常见的八种错误

一.关键字选择错误 关键字选择错误这大概是最大的一个错误,也是最容易犯得一个错误.甚至是有经验的网站开发者也很容易犯这种错误.举例来说吧"河北SEO"这个词,一般来说搜索河北SEO这个词的都是懂点网站优化知识的SEOer或者SEO爱好者们,真正有需求的客户们不会这么搜索,他们如果想找个公司给网站做一下优化,可能会这么搜索"河北网站优化公司""河北网站优化".所以说做网站关键词优化不能凭空想象,要多站在客户的角度去思考问题,多问问身边人怎么样,这样

数据分析不得不知的七种回归分析技术

回归分析技术是一种非常重要的数据分析方法,有着广泛的应用,能够解决目标变量为连续的预测分析问题. 什么是回归分析? 回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系.这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系.例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归. 回归分析是建模和分析数据的重要工具.在这里,我们使用曲线/线来拟合这些数据点,在这种方式下,从曲线或线到数据点的距离差异最小.我会在接下来的部分详细解释这一

开源项目中经常出现的七种错误

启动一个新的开源项目可能会遇到一些困难.也许你脑子里有一个很棒的想法,但是想把它们变成富有成效的.健康的.吸引人的社区还需要做很多工作.令人叹息的是,相同的错误总是被无代价的重复,出现低级错误是团队中的忌讳.下面就请跟随笔者一起,看看开源项目中经常出现的错误,并且尝试去规避它们.相信会对你的项目开发有所帮助. 1.聊天代替发送 在数以千计的开源项目中,有太多人因为松散的渠道.邮件列表问题或其它方面在一开始就陷入困境.讨论围绕着房子而展开,范围也越来越大,把许多不同的想法和考虑纳入其中.一个早期的

合肥妈妈:最常见的七种关键词堆积行为

Seo菜鸟和老鸟的一大区别就是如何布局关键词.Seoer总是想让目标关键词在搜索引擎里有更好的排名,于是刻意优化网页.殊不知,关键词的合理布局的确会给网站带来更好的排名和用户体验,然而,堆积关键词的行为势必受到惩罚.搜索引擎指南里明确说明过它们不喜欢堆积有关键词的网页.那么,既然这样为什么还会有那么多人去做这种搜索引擎不喜欢的事情呢?我想其中最大的原因在于受到了关键词密度的影响.要知道我们优化网页首先就要做好用户体验优化,其次才是搜索引擎优化.我在关键词布局里已经说过优化时千万别被2%~8%的关