13招神技 让你在数据科学和数据分析工作中脱颖而出

然而,可悲的是,只有不到30%的数据科学项目最终实施了。我备受打击的意识到我的努力被浪费了。但是,我不是唯一的一个。几乎,每一个分析家都有同样失望的感觉。

即使在今天,数据科学行业面临的真正挑战是企业和分析人员之间缺乏协调。令我惊讶的是,我甚至注意到,这些人更喜欢坐在同一个办公室里坐在一起。

如果这两种技能的专业人士很普遍,我们就可以看到一个实施可能性更高的项目。在过去的四年里,我花了很多时间思考使一个项目成功的最佳实践。

我发现,如果有个对症的人坐在你的办公室,他能明确定义业务问题,并且诱导你突破思维定式,你将突破管窥限制。

因此,你在数据科学/分析工作中正在取得成功时,我建议你遵循下面提到的提示。这些都是尝试和测试的总结。为了获得最大的利益,我建议你遵守。我从他们身上已经受益。现在轮到你了!

以下是优先顺序

在你开始解决问题之前请先掌握业务

我知道你是一个数据分析师,所有你关心的都是数字。但是,一个令人敬畏的业务分析师和一般数据分析师有哪些不同呢?那就是他们对业务理解的潜质。你应该在开始你的第一个项目之前试着去了解企业。下面是一些你应该需要探索的东西:

  • 客户信息:活动客户总数,月客户流失,业务上的业务组合定义。
  • 经营策略:我们如何获得新客户,渠道有哪些?我们如何留住有价值的客户?
  • 产品信息:你的客户如何被你的产品吸引?你如何通过你的产品赚钱?你的产品是直接盈利者还是媒介工具?

如果你能回答这些问题,你对开始你的第一个项目已入门。

想想你是正在解决一个潜在问题,还是只是一个结果

我观察到,分析师瞄准的甚至不是问题的主要目标。例如,让我们想象一下,我们发现,一个客户在拨打客户服务电话,谈话更多的是他在放弃服务。

现在,如果我们开始解决降低客户服务的呼叫数量的方法,我们可能不会降低流失率。相反,在你没有过失的情况下,我已经看到你客户较高的不满。这可能是一个简单的致命伤,你会拒绝进入这种简单的陷阱。但是,现实生活中的问题几乎难以发现。我想说,解决一个明确的问题要比找到解决问题的正确方法要容易的多。

花费更多的时间在找到正确的评估指标和完成工作需要的必备条件

这个可能是对分析师来说是非常容易解决的一个难题,但也是最容易导致失败的一个陷阱。让我用几个简单例子来做解释。

假设,你将要建一个营销活动的目标模型,你将选择哪个指标来评估你的模型:

  • KS正态分布统计
  • 等分提升指数
  • AUC-ROC曲线
  • Log-Likelihood 对数似然数

在这种模型中,我常会选择KS正态分布曲线。等分提升指数只能给你在某个特定等分的评估,因此,它可能不会帮助我们找到巨大的目标人群和突破点。AUC-ROC曲线可以对整体人群评估,不适合在这个模型中。对数似然数可能是最大的最不适合这个模型,因为所有的事情是顺序排名而不是实际概率。

使用发散-收敛的思维过程,以避免过早收敛

我已经看到这在许多行业是最大的问题。当今的商界领袖在他们所做的一切中寻求创新。

要真正的创新,您可以遵从发散-收敛的系统方法。在某种程度上,你需要对将要到来的进行发散思维,通过这种方法你得到更多的经验。我们的意思是想所有的可能方式,在可行性、时间发展、传统方式等各个方面破解难题。但是,你确信你已经发散到足够大了,你需要立即应用所有的约束条件来缩小方法。

打破行业壁垒想到替代解决方案

分析正在使用在每一个可能的行业中。但是,为什么我们不能超越传统的方法,在其他行业寻找解决方案?

例如,一个应用于电子商务行业的推荐视频解决方案可以像Analytics Vidhya公司在博客门户使用一样好。唯一的方法就是与其他行业的人进行互动,通过分析来学习他们奋斗的成果。

与业务伙伴共同前行

从你的分析事业的第一天起,你应该与业务伙伴进行互动。我常常会看到一件一般会出错的事,分析师和业务伙伴就解决方案交流很不频繁,业务合作伙伴想远离技术细节从业务角度进行分析,这确实对项目不利。在模型实施和模型建模中保持持续的互动是非常重要的。

思考最简单的让你的想法落地的方案

我知道你是一个数据分析师,喜欢用复杂的想法让业务人士迷惑。和业务人士使用如此复杂的讨论可以帮助你快速结束眼前的谈话,但会降低成功实施的可能性

以下是你需要做的:一旦你输出一个指标,尽量找出一个简单的方式,可以让企业更容易理解。让我给你这个方法的一个例子。我们试图找出那些一旦有机会,就可以做的非常好的代理商,我们想出不同层次的人群和他们预期的表现。然而,我们不得不选择一个可以区分人群组合的方式。我们所做的很简单:我们实施了差别收费策略,以改变申请人的组合和我们群体的组合。

当做一个业务组件的时候,确保你把它放到它们的语言场景中

目标指标永远不是你分析的最终产品。它只是一个业务组件!因此,你需要在使你的想法更清晰和更有效而投入大量的精力。尝试学习能与你的听众更好连接在一起的术语,思考你的商业伙伴想寻找什么,假象你是他们的鞋子。

给企业领导做讲演的时候学会使用业务语言

我最近开始为我的一个项目学习中文。整个项目都非常简单,但我发现,即使有一个强大的模型,在销售它的时候我犯了个错误。原因是我对他们内部讨论的理解一篇空白。使用你的听众的语言是非常重要的。我看到非常简单的模型被赞赏和最聪明的模型被拒绝。唯一的区别是分析师在介绍他们的模型时使用的业务语言。

积极跟进落实计划

最后来的但不是最不重要的,一旦每个人都相信你的模型的有效性,会发生什么。你的工作还没有完成。建立每月项目跟进计划,了解项目如何实施,是否在正常的进行。

积极参与数据类的比赛

随着时间的发展,你会意识到一件事情:分析行业的变化非常快。然而,如果你是喜欢待在自己舒适区的一个人,你很快就会发现你的技能都过时了。我发现一个非常有用的方法就是参与数据类的科学竞赛,并与同行竞争/学习。 Kaggle 和Analytics Vidhya就是一些非常好的比赛。

本文作者:佚名

来源:51CTO

时间: 2024-10-27 20:17:46

13招神技 让你在数据科学和数据分析工作中脱颖而出的相关文章

《Python机器学习实践指南》——1.1 数据科学/机器学习的工作流程

1.1 数据科学/机器学习的工作流程 打造机器学习的应用程序,与标准的工程范例在许多方面都是类似的,不过有一个非常重要的方法有所不同:需要将数据作为原材料来处理.数据项目成功与否,很大程度上依赖于你所获数据的质量,以及它是如何被处理的.由于数据的使用属于数据科学的领域,理解数据科学的工作流程对于我们也有所帮助:整个过程要按照图1-1中的顺序,完成六个步骤:获取,检查和探索,清理和准备,建模,评估和最后的部署. 在这个过程中,还经常需要绕回到之前的步骤,例如检查和准备数据,或者是评估和建模,但图1

Python赶超R语言,成为数据科学、机器学习平台中最热门的语言?

近日,kdnuggets做了一个关于数据科学.机器学习语言使用情况的问卷调查,他们分析了954个回答,得出结论--Python已经打败R语言,成为分析.数据科学和机器学习平台中使用频率最高的语言.有关此次问卷更具体的情况如何?笔者将kdnuggets上发表的总结文编译整理如下: 之前我们在kdnuggets上做了这样一个问卷调查,2016.2017两年,在分析.数据科学和机器学习的工作中,你用R语言,还是Python,或两者都用,或选择其他的语言? 通过分析954个回答,我们得出了这样的结论:虽

13张图看6年来数据科学概念之争

◆ ◆ ◆ 数据科学是一个定义相当模糊的词语.我听到的一些定义有-- "这是一项需要比大多数统计学家更多的编程技巧,和比程序员更多的统计数据技能的工作." "是应用统计,但在旧金山却不是." "有人突然决定在自己的名片上印上'数据科学家'这几字,然后靠着这个涨了工资." 就我个人而言,我最近决定称呼自己为数据矿工来避免争议.(无论如何,数据矿工并不时髦.) 数据科学是一个寻找定义的行业,人们进行着很多不同的尝试来定义它也不足为奇. 作为一个充满着

福利 | 分析554条数据科学面试问题,给你靠谱求职攻略

◆ ◆ ◆ 导言 全世界顶尖的数据科学团队正在做着令人难以置信的工作,分析世上最有意思的数据集. 相比20世纪的研究者,谷歌(Google)拥有更多与人类利益相关的数据,而优步(Uber)每天无缝地协调着超过一百万人的行程.价格.借助机器学习和人工智能,顶尖的数据科学团队正在改变我们摄取和处理数据的方式,而且他们提出的众多确实可行的见解,影响了数百万人的生活.初出校门的你们.或者准备跳槽的你们,是不是激情澎湃地想要加入这史诗般的工作? 假若这些顶级数据科学团队的面试都有类似的模式,可以让求职者掌

数据科学中“专业化”意味着什么

我作为一个数据科学家的经历跟我在书本和博客上所读到的根本不一样.我曾读到过为数字超级新星公司工作的数据科学家,他们听上去像是英雄,可以写出自动化(近乎有感知能力的)算法并不断地大量获取认知结果.我也读到过像百战天龙那样的数据科学家黑客,他们可以通过将他们周围有的任意原始材料拼凑出数据产品来拯救世界. 我的团队创建的数据产品并没有重要到可以评价大型的企业级基础设施.只是我觉得,投资超高效的自动化以及产品控制是不值得的.另一方面,我们的数据 产品影响了企业中的重要决策,并且我们的努力是可测量,这一点

《数据科学家修炼之道》一2.1 数据科学领域的历史

2.1 数据科学领域的历史 "数据科学"这一术语的流行要早于"大数据"的出现(就像"数据"一词要早于"计算机(computer)"400年出现).1962年,当John W. Tukey[1]写了<数据分析的未来>(The Future of Data Analysis)[2],他预见了数据分析的新方法的崛起相比于方法论来说更像是一门科学.1974年,Peter Naur在瑞典和美国出版了<计算机方法的简明调

想组建自己的数据科学团队?CEO们要先回答这几个问题

◆ ◆ ◆ Jeremy Stanley 是日用杂货当日送达初创企业 Instacart 主管数据科学的副总裁,Daniel Tunkelang 是前 LinkedIn 的数据主管.作为在数据科学领域身经百战的老将,他们在这篇文章中为那些想打造一支属于自己的数据科学团队的公司 CEO 们提供了一些建议,主要涵盖了这几个问题:数据科学为什么对很多创业公司如此重要?公司应该在什么时候在数据科学方面进行投入?应该将数据科学团队放在公司里的什么位置上?如何营造一个尊重数据科学的文化氛围? ◆ ◆ ◆ 你

《Spark与Hadoop大数据分析》一一1.2 大数据科学以及Hadoop和Spark在其中承担的角色

1.2 大数据科学以及Hadoop和Spark在其中承担的角色 数据科学的工作体现在以下这两个方面:从数据中提取其深层次的规律性创建数据产品要从数据中提取其深层次的规律性,意味着要使用统计算法提炼出有价值的信息.数据产品则是一种软件系统,其核心功能取决于对数据的统计分析和机器学习的应用.Google AdWords或Facebook里的"你可能认识的人"就是数据产品的两个例子.1.2.1 从数据分析到数据科学的根本性转变 从数据分析到数据科学的根本转变的根源,是对更准确的预测和创建更好

《Spark与Hadoop大数据分析》——1.2 大数据科学以及Hadoop和Spark在其中承担的角色

1.2 大数据科学以及Hadoop和Spark在其中承担的角色 数据科学的工作体现在以下这两个方面: 要从数据中提取其深层次的规律性,意味着要使用统计算法提炼出有价值的信息.数据产品则是一种软件系统,其核心功能取决于对数据的统计分析和机器学习的应用.Google AdWords或Facebook里的"你可能认识的人"就是数据产品的两个例子. 1.2.1 从数据分析到数据科学的根本性转变 从数据分析到数据科学的根本转变的根源,是对更准确的预测和创建更好的数据产品需求的不断增长. 让我们来