微软高级数据科学家教你如何做数据科学

学会获取更多的数据

数据科学的数据源是数字和字段的集合。测量、价格、日期、时间、产品、标题等,都是简单的数据集;你也可以用图像、音频、视频等复杂结构的数据集,这时需要你去降维分解成数字和字段的集合。

数据获取是一个复杂的机制,数据工程师各种被揉捏,但本篇文章重点是讲述数据科学,数据获取将会是下一个topic。

学会聪明的提出问题

简单点讲,就是提出的问题要问到点子上。数据科学是通过对数字和字段组成的数据集合进行处理,然后回答问题。你描述的问题越精确,越容易找到令你满意的精确答案。含糊不清的问法:“我的数据能为业务提供什么?”,”有了数据我该做什么?”;相对应地,清晰的问法:“第三季度在蒙特利尔卖了多少Q型小物件?”

你有了一个问题,现在你得看自己的数据是否可以回答。如果你的问题是“我的股票下周的销售价是多少?”,那需要确保你的数据包括股票的历史数据;如果你的问题是“88型发动机多少小时会发生故障?”,那需要确保你的数据包括88型发动机失败的次数。这些问答案例被称之为目标,你的目标是定量或者分类预测或任务。如果你没有任何目标数据,需要回到步骤1,获取更多的数据。

装载数据进表

大部分机器学习算法都是假设数据以表的形式呈现。每行是一个事件、item、或者实体;每列是行数据的一个特征或者属性。一个描述美国足球比赛的数据集,每行代表一场比赛,每列分为主场足球队、客场足球队、主场得分、客场得分、日期、开始时间和出场等等。

选择你所需的数据行

经常有许多种方式将数据集分割成行,但只有一种方法能帮助你回答问题:每行有且仅有一个目标实体。拿零售店数据举例,一条交易记录一行,一天的记录一行,一个零售店一行,一个顾客的数据一行,等等。如果你的问题是”刚进过店的顾客会回访吗?“,那数据以一个顾客为一行来组织为好。你的目标whether_the_customer_returned将呈现在每行;但如果以一个零售店或者一天进行数据组织,将不能回答目标问题。

有时你必须向上钻取数据来获得相应的维度数据。如果你的问题是“我每天能卖多少拿铁咖啡?”,那你需要每行一天的数据记录(目标列为number_of_lattes_sold),但是你的数据是每次的交易记录(带有日期和时间)。为了获取每行一天的数据记录,你必须向上钻取数据。

数据质量校验

数据检查

接下来是仔细的查看数据。检查数据有两个目的:第一,发现错误数据,修复或者去除它;第二,对每行每列有足够的了解。

检查每列数据,它的符号是什么?符号意味着什么?有文档解释列的意思吗?数据是如何测试的?谁来测试的?如果你足够的幸运知道记录数据的人,可以去问问他们是怎样测试这些数据。

把数据列作为纵轴画图表,看下整体分布是否符合预期?是否有异常数据点?异常点是否有意义?

校正

纵观所有的数据列,你能发现字段和文档的错误,并记录下来你学到了什么,这样你会比其他人都要了解这些数据(除了纪录数据的人外)。

你也可能发现一些值是错误的。一些值超过了正常范围,比如,一个人72米高,或一个“7777777777 Mani St”的地址。当这些事情发生后你有三种选择:如果这个值很容易更改正确,比如,把高72米改成72英寸;如果错误的值不明显,你可以直接删除或者缺失;如果这个值是关键信息,你应该删除整行或者整列,这可以让你训练的模型远离错误数据,因为错误的数据对你的训练模型的影响比缺失数据更大。

替换缺失的值

在大部分情况下,数据集都存在缺失的值。但不管什么情况,机器学习算法都要希望数据无缺失或者填充默认值。对于你来说,你比机器学习算法更懂你的数据,所有补全缺失数据的工作你更适合。有许多替换缺失值的方法,最保险的一种是采用其它正常数据的平均值来替代。

抽取特征

在做机器学习之前有一个非常重要的步骤:特征工程。特征工程简单讲,就是对现有特征数据进行组合,以获得更好的特征来预测目标。举个例子,火车到达和离开的时间相减获得运输时间,这个特征对预测速度的峰值更有用。

严格来讲,特征工程并不会增加任何数据信息,只是使用各种方法对原有数据进行组合。特征工程是数据科学的“黑科技”,并没有什么特别的、大一统的处理原则,虽然很多深度学习试图自动化这个过程,但都是失败了,特征工程一般是数据科学家的经验决定。不过即使你没有特征工程的技能,也有些小技巧可以使用。你可以对变量画图,并标记不同的颜色,可以帮你方便的发现变量之间的关系。

如果你发现经过特征工程之后还未找到特征来预测目标,那你得重写回到第一步获取数据。

正确的回答问题

现在到了数据科学家钟爱的部分:机器学习,有许多资源讲这部分,这里就不再总结所有的方法。简单地讲,你可以在参考文章《你的问题属于哪种算法?》和《选择一到多种算法》来选择算法,并用传统机器学习技术来分割数据进行训练、调优、测试数据、根据选择的模型优化参数。

如果你的模型并不能很好的解决问题,或者你想避免使用机器学习,也有两种非传统的方法回答:

第一种,简单的看你收集数据的图像,有一半的情况下可视化数据就可以找到答案。比如,如果你的问题是“在波士顿明年7月4号的最高温度是多少?”,对过去100年的温度可视化,查看直方图就基本可以解决问题。

第二种,更多技术需求。如果由于数据集太小而得不到结果,你可以考虑优化。机器学习是基于弱先验假设的结构化数据。这种方法的优点在于你使用算法之前你不需要知道太多数据,它能够训练出一个大范围的模型;副作用就是需要大量数据才能获得一个可信的答案。

应用数据

不管你如何优雅的回答提出的问题,但数据科学家的工作直到用户去使用才算完成。把结果以某种形式呈现给用户作为参考来做对应的决策,展示的形式有很多种:将结果在web页面上画出来;把你发现的有用信息保存成PDF;在GitHub上分享你的代码;把结论做成视频给你的商业客户,等等。总之一句话,要把你做的工作让其他人来使用。

本文转自d1net(转载)

时间: 2024-10-24 18:47:46

微软高级数据科学家教你如何做数据科学的相关文章

在第三方公司做数据服务和甲方公司做数据服务有哪些不同呢?

摘要: 文章来源@微博UDC设计中心 现在是一个大数据时代,人人嘴边都挂着数据创造价值.数据挖掘等一些热词.各公司内部也逐渐认识到数据的重要性,纷纷成立数据部门,期待数据可以真 文章来源@微博UDC设计中心 现在是一个大数据时代,人人嘴边都挂着数据创造价值.数据挖掘等一些热词.各公司内部也逐渐认识到数据的重要性,纷纷成立数据部门,期待数据可以真正的为业务服务. 另外,也有一些专做数据服务的第三方公司不断涌现,希望能够帮助产生数据的甲方分担数据分析的担子,挖掘出更多有价值的规律,帮助甲方不断改进业

大数据时代:总结甲方乙方数据差异

如今,大数据时代悄然而至,很多人嘴边都挂着数据创造价值.数据挖掘等一些热词.各公司内部也逐渐认识到数据的重要性,纷纷成立数据部门,期待数据可以真正的为业务服务.另外,也有一些专做数据服务的第三方公司不断涌现,希望能够帮助产生数据的甲方分担数据分析的担子,挖掘出更多有价值的规律,帮助甲方不断改进业务水平.不断发现业务中存在的问题.从这个角度来讲,甲方公司与第三方数据服务公司的初衷是一致的. 那么到底在第三方公司做数据服务和甲方公司做数据服务有没有哪些不同呢?结合最近几年第三方公司到甲方公司做数据的

想学数据科学?你可以做这五件事!

文章讲的是想学数据科学?你可以做这五件事,换工作绝非易事,但总有一些因素会非常吸引你,比如一份前景客观的薪资或一个不需要竞争的环境.在这个公平的数据科学时代,接下来这份不错的公开报告将会清楚地告诉你为什么不尝试迈出下一步呢?做好这五件事情,你可能可以找到一份满意的数据科学工作! 1.理解数据科学是什么 就学习而言,微软的网站可能不是你第一个想到的地方,但可以肯定地是,几个月前,软件巨头发布了一系列非常棒的关于数据科学初学者的五个短视频.每个视频都集中在某一个方面,例如"五个数据科学问题的答案&q

硅谷资深数据科学家教你认清探索性数据分析(EDA)的价值

首发地址:https://yq.aliyun.com/articles/73880 更多深度文章,请关注:https://yq.aliyun.com/cloud 作者介绍 Chloe Mawer:硅谷资深数据科学家,具有地球物理学和水文学的学习背景,精通利用数据进行预测以及提供有价值的见解:她的学术研究和工程经验使她能够解决新问题,创造实用.有效的解决方案. 领英:http://www.linkedin.com/in/chloemawer/ 编者注:Chloe Mawer(SVDS成员)在4月3

高考志愿季|如何从选专业开始 科学规划走上大数据之路

◆ ◆ ◆ 导语   随着全国各省高考分数线的公布,考生和家长也投入到了报考志愿的战争中.高薪.市场需求居高不下的数据科学家正在成为众多年轻人的理想职业.那么想要进入大数据领域并成为佼佼者,如何从高考选专业开始科学规划?   大数据文摘联合数据派(datapi)策划了本期专题,针对"数据科学家"的专业成长路径,采访了清华大学徐葳教授.阿里数据专家刘智勇.哥伦比亚大学数据科学在读硕士王昱森,希望他们从各自不同的角度,给想要走上大数据这条路的年轻人选择专业提供一些参考. ◆ ◆ ◆ 数据分

云计算、大数据能为反恐做什么?

文章讲的是云计算.大数据能为反恐做什么,11月25日召开的国家反恐怖工作领导小组专题会议上,公安部部长郭声琨提出,要运用大数据.云计算技术打击恐怖行为."从海量的人流.物流.信息流.资金流中及时发现涉恐线索,做到预警在先.预防在前.敌动我知.先发制敌." 大数据如何反恐呢?全球各国的成功经验值得借鉴.8月底,美国国防部长卡特(Ash Carter)赴硅谷招募顶尖科技人才.近年来的信息大爆炸使得五角大楼不得不将目光聚焦高科技硅谷,以打击反恐.美国中央情报局的CTO Gus Hunt则表示

传统媒体欲借大数据逆风再起 当防误区科学运用

对传统媒体来说,要想真正实现数字化转型,就必须建立起自己基于大数据技术的智能信息服务平台.那么,大数据到底是什么?传统媒体进军大数据要突破哪些局限?又可以从哪些方面突破?就此,国家行政学院社会和文化教研部高级经济师.管理学博士郭全中做了分析. 2013年,是大数据元年,大数据正在给传统媒体带来革命性变化,传统媒体虽然也采取各种方式积极应对大数据的挑战,但是由于对大数据认识不够到位,导致实践变形,误区重重. 传统媒体大数据实践得益 首先,通过大数据分析及时抓取传统媒体的用户的相关阅读等信息,提高用

sqlite3-C#读取SQLite3数据库中以科学计数法存的数据,精度损失

问题描述 C#读取SQLite3数据库中以科学计数法存的数据,精度损失 我使用的是C#语言,.net 2.0,SQLite3中有一条数为 9.13253416969279E-29 读取方式为: SQLiteCommand command = new SQLiteCommand(strSql, m_Connection); return command.ExecuteScalar(); 返回一个object对象, 值为 0.0000000000000000000000000001M 我想取到数据库

经历多个数据科学岗位后,对于数据科学面试他分享了以下求职心得

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud 关于作者 项目: 社交媒介: • Notes on Dirichlet Processes • Twitter Cybersecurity的数据科学家和软件工程师. • Should I Get a Phd? • Github 喜欢数学.计算.交流.阅读.元组.摄影.哲学科学等. • Do You Play Ball? • Linkedin • Ultralight Backpacking for the U