哥伦比亚大学数据科学课程笔记

第一周:什么是数据科学?

课程大纲

Rachel Schutt教授以梳理课程大纲开始,下面是她主要的摘要:

1、 课程需要的基础知识有:线性代数,基础统计学,以及一些编程课程。

2、 课程目标:学习数据科学家都做些什么,并学会做其中的一些事儿。

3、 Rachel主讲几个礼拜的课,然后会有客席讲座。

4、 客座教授的简历跨度非常大,他们的背景也是如此。但他们都是数据科学家。

5、 我们将有丰富的阅读材料:做一名数据科学家的一种能力就是认识到许多还未记录下来的东西。

6、 差不多每两周一次家庭作业,共6-10次。

7、 毕业设计将会是一次内部Kaggle比赛。这是一次团队作业。

8、 此外还会有一次课堂期末考试。

9、 我们将会使用R和python语言,主要是R。可以下载RStudio,主要是辅助R。

10、 如果你只对hadoop分布式计算和运算大数据有兴趣,请你选择Bill Howe的Coursera课程。我们会涉及到大数据,但是只在课程的最后部分。

数据科学的现状

那么,什么是数据科学?数据科学是新的领域吗?是真实的吗?到底是什么?

大家一直在讨论这个话题,但是MichaelDriscoll的答案非常好:数据科学,因为它的实践,是一门红牛饮料驱动的黑客行为和浓缩咖啡激发灵感的统计学的融合

但是数据科学不仅仅是一次黑客行为,因为当黑客们写成一行Bash语言(Linux脚本程序)和Pig程序(MapReduce使用的高级编程语言)时,很少再会有黑客在乎非欧几里得的距离度量。

数据科学也不仅仅是统计学,因为当统计学家从理论上完成最佳模式的推理,很少人会将A delimited文件再转化到R语言,即时他们的工作需要这个。

数据科学是数据的土木工程。它的用处在于将工具与材料的实务知识,与“什么是可能的”理论理解相结合。

Discroll也参考了Drew Conway2010年的数据科学的维恩图解VennDiagram

让我们也来看下2009年Nathan Yau在崛起的数据科学家》(Rise of theData Scientist, 2009)中提到的 数据极客的性感技巧: 
1、统计学 – 你习惯性想到的传统分析

2、对数据进行不必要的改动- 解析,抹去和格式化数据 
3、视觉化 - 图表,工具等 

别急,数据科学是一口袋骗局吗?或只是其他领域,如统计和机器学习的合乎逻辑的延伸?

让我们再来看看ASA主席Nancy Geller在2011年Amstat新闻期刊上发表的文章《别丢弃统计S字眼儿》(Don’t Shunthe ‘S’ Word, 2011),其中她为统计学在数据科学中的作用进行了辩护。

可以肯定的是,在数据科学领域,没有人能提供给你一份干净的数据库,也没有人告诉你用什么数据处理方法。此外,数据科学的发展领域是在工业界,而非学术领域。

2011年,DJ Patil描述了他是如何在2008年与Jeff Hammerbacher共同创造了“数据科学家”这个词。然而早在2001年,William Cleveland就写了一篇有关数据科学的学术论文。

这么说来,数据科学的诞生早于数据科学家?这是个文字游戏吗?这要究竟怎样理解呢?

由此引发了下列问题,该如何通过数据科学家的职责来定义数据科学?由谁来下定义?这中间有许多含糊其辞,是否该由媒体来定义?还是由从业人员说了算,抑或是自诩的数据科学家们?究竟是否已有一个权威了呢?让我们还是给这些问题留一定余地吧。

哥伦比亚大学决定借由布隆伯格(彭博商业媒体主席,前纽约市长)的支援,建立数据科学与工程学院ColumbiaInstitute for Data Sciences and Engineering。这次举措还引发了一个问题,为什么信息发布现场还有一位化学家呢?上一次我查看纽约数据科学家招聘职位时有465个职位空缺,这是相当大的数量。所以即使数据科学还不能被称之为真正的领域,至少它提供真实的工作岗位。

同时还须注意到,对数据科学家工作岗位的描述中都有对计算机科学、统计学、传播学、数据可视化和一些其他专业领域精通的要求。没有人是全能专家,这正是组建一支由不同背景和各个领域专业人才的团队的重要性。作为一支团队,就可以精通任何领域了。

下面是一些数据行业生态系统中的重要成员:

l O’Reilly与他的Strata会议

l Datakind

l Meetup Groups

l Union Square Ventures等风险投资正往诸多数据科学创业公司投入资金

l Kaggle定期举办数据科学大学

l 哥伦比亚大学应用数学教授Chris Wiggins,为技术专长本科生与纽约创业企业间建立了系统的暑期实习项目HackNY

注:维基百科直至2012年才创建了“数据科学”词条。更说明了这是一个新的术语,也或许是一门新的学科。

如何开展一项数据类的项目?

假设你要为某个网站做一个网络产品,需要跟踪分析用户的行为。你可以顺着以下这个思路来考虑这个问题:

1. 用户与产品互动

2. 产品的前台和后台

3. 用户产生的操作:点击等

4. 这些操作都会被记录下来

5. 时间会被记录;用户使用产品的所有关键操作都会被记录

6. 记录的原始数据经过改写、整合、映射化简等处理

7. 最后处理得到大量的优质数据

8. 这些数据是通过用户键入、播放(诸如Pandora这样的线上播放系统)或者任何可能的方式被收集到的

9. 收集到的数据将被分析,建模等等

10. 最终的分析结果能给我们一个全新的视角来理解用户行为

11. 新见解又会被反馈到产品上去

12. 要系统地改变用户与产品的关系,我们决定先测试用户与产品的互动。这一点已经将传统的数据分析员和数据科学家的工作区分开来了,数据分析员只负责分析客户消费的可能性,重新定位用户群,但不会改变产品本身。

13. 数据科学家还需向总经理或者产品总设计师汇报他们观察到的客户情况,比如客户体验和客户行为习惯,这就需要他们具有沟通汇报,数据可视化和“讲故事”的能力。数据科学家的本职工作就是围绕产品“讲故事”。

14. 有时你必须从网页上抓取辅助信息,因为相关信息可能会被遗漏记载,或者还有可能因为不是用户本人产生的没有被记载。

描述你自己

Rachel分发了评分参考卡让他们对自己的技能等级(从相对级别而非绝对级别)从以下几个方面进行描述:

软件工程,

数学,

数据统计,

机器学习,

专业知识,

语言交流与口头汇报能力,

以及数据可视化。

然后我们将这些评分参考卡收集起来看看大家眼中的自己是怎么样的。非常有趣的是,虽然他们当中大多数人都是来自社会科学专业的,但是结果却有相当大的差异。

同时,由于没有一个人擅长所有事情,所以当数据科学小组内不同的人拥有不同的技能(前面所描述的)的时候,这个小组往往能运转十分顺利。这让我开始考虑把它定义为一个“数据科学小组”是不是会更贴切,而非一个数据科学家。

思考问题:我们能用数据技术来定义数据科学吗?

我们分了若干小组来讨论这个问题,下面是其中一些观点:

l 可以:比如谷歌搜索的数据技术以及其执行的文本挖掘模型

l 但是等等,这个取决于就语言而言,你是一个使用者而非处方者。我们可以让大众来定义数据科学吗(这儿“大众”指的是谷歌搜索引擎找到的一切东西)?或者说我们可以找一个比较有权威的参考吗?比如牛津英语词典。

l 事实上牛津英语词典或许目前根本还没有相关条目,然后我们也没有时间去等待它收录此条目。我们不妨接受这样一种现象,有一种既不被权威参考所认同也不被“大众”所接受的范围。

l 我们不妨再来看看那些操作领域的数据科学家?看看他们怎样描述他们所做的事(或许对初学者来说是模糊的),然后看看那些被称之为统计学家,物理学家或者经济学家的人怎样来描述他们所做的事。接着我们可以尝试着用聚类算法或者一些其它模型来验证它,比如当我输入“我所做的事”的时候,它是否能很好地预测我所在的领域。

仅仅作为一个比较,检验一下HarlanHarris最近在数据科学领域所做的事:他通过调查,运用聚类法定义了数据科学的子领域,具体结果参见下面的图片:

这是一个令人兴奋的第一周,希望我们能取得更大的进步!

原文发布时间为:2014-06-11

时间: 2024-12-21 02:52:33

哥伦比亚大学数据科学课程笔记的相关文章

加州大学信息科学院长:数据科学课程不只是工程师才修的

一般在考虑围绕数据科学的基础教育时,传统上的重点仍停留在计算和工程等硬性技能上.不过,在周四于纽约市召开的GigaOm结构数据(Structure Data)会议上,美国加州大学伯克利分校信息科学院长AnnaLee Saxenian教授表示,数据科学课程的教育内容不仅广泛地纳入了社会科学知识,其价值也不仅仅限于工程师. Saxenian说,"我相当地的确定,数据认知能力的培养将越来越多地成为所有课程的一部分." 此外,她还解释说,随着越来越多的企业需要解决大数据问题,分到这些任务的数据

在twitter搞数据科学是怎样一种体验?

2015年6月17日是我在Twitter工作两周年的纪念日.回想起来,两年间,数据科学在Twitter的应用方式和范围发生了很大变化: · 工具的智能化上,Pig已经过时了,现在的数据流水线都是用Scalding(建立在串联之上的Scala领域特定语言,便于详细描述Hadoop MapReduce任务--译者注)编译的. · 组织结构上,数据科学家和产品经理.工程师的工作环环相嵌,合作之密切史无前例. 以上只是众多改变中的一小部分.拿我来说,我的研究领域最近从Growth延伸到PIE (Prod

在Twitter“玩”数据科学是怎样一种体验

◆ ◆ ◆ 引子  2015年6月17日是我在Twitter工作两周年的纪念日.回想起来,两年间,数据科学在Twitter的应用方式和范围发生了很大变化: 许多Twitter的非机器学习主导的核心产品中,机器学习的比重正在不断增加(例如"While you were away" 功能--Twitter把你下线时可能错过的头条推文推送到你的个人首页). 工具的智能化上,Pig已经过时了,现在的数据流水线都是用Scalding(建立在串联之上的Scala领域特定语言,便于详细描述Hadoo

数据科学入门难?老司机为你盘点 24 门精品课程

本文盘点了 24 个高品质的在线数据科学入门教程,原作者 David Venturi,他获有化学工程和经济学的双学位,热衷于数学.数据科学和统计学,同时也是一位编程爱好者.更具传奇色彩的是,他本来就读于一所名校的计算机科学专业,但觉得对数据科学更感兴趣--于是果断退学,从 Coursera.edx.Udemy 等慕课平台开始自学,终迈入专家行列. 他的经历说来也并不特别,世界上又多了一个慕课代言人而已.但雷锋网认为,他的经历具有两点价值:首先,最好的教学资源已经在那儿了--很多还是免费的,取不取

研究了数千个在线课程,我整理了一份数据科学入门课清单

一年前,我退出了加拿大最好的计算机科学项目之一,利用在线资源开始创建属于自己的数据科学硕士课程.我意识到我可以通过edX, Coursera,以及Udacity学习我所需要的一切,而且学的更快.效率更高,学费更低. 数据可视化:Alanah Ryding 现在我差不多快要完成了.我上了很多数据科学相关的课程,旁听过更多课程的部分内容.我知道对于一个准备成为数据分析师或数据科学家的初学者来说有哪些选择,以及什么样的技能是必需的.几个月前,我开始创建一个用评价驱动的指南,用来为数据科学中的每个主题推

8个最新的美国数据科学项目简介

对国外数据科学院校.专业感兴趣的朋友可以给文摘后台留言,留下你的微信号,我们建群讨论. 1.印第安纳大学数据科学在线认证 印第安纳大学在2014年1月开始提供在线数据科学专业,该项目提供多种多样的课程,能让学生各取所需.项目要求你修满12个学分,包括云计算.数据管理和数据分析课程. 具体信息: 本项目会教授这个兴新领域里你所需要知道的概念和技能:数据收集,数据管理和建设,数据分析和数据可视化.有以下一些3学分的课程可供选择: 大数据运用与分析 数据密集型科学的云计算 信息可视化 大数据在药物开发

数据分析工具独领风骚 数据科学服务表示不服

企业需要从大量收集的数据中攫取价值,但很多企业似乎无法找到足够的数据科学家来做这件事.因此数据科学作为一项服务变呼之而出. 处于如此困境的企业可以把他们的原生数据外包给类似DataScience这样的公司,这是一家位于加利福尼亚Culver City的创业公司.其分析团队对数据进行清理并使用复杂的建模工具.国产软件来提供建议,这样客户就可以根据这些建议来改进产品和服务,展他们的客户群,最终增加收入. SearchBusinessAnalytics与DataScience的CEO兼创始人Ian S

数据科学家必备工具有哪些?

当数据科学家需要使用某些软件时,其中一部分我们已经在之前的章节中做过介绍,这些软件涵盖了数据科学家所需要的基础专业内容.实际的工作范畴可能会超越求职时候的工作描述,这也是IT工作的常态之一.这在某种程度上是好的,因为它提供了学习新技能的机会,而这也是数据科学领域最引人入胜的方面之一. 在这一章中,我们会探索数据科学环境中常用的软件.不是所有在这里提到的软件都会在你的工作中用到,但了解它们会让你拥有更多选择.特别是我们会提到Hadoop套件的一些其他备选工具(例如Spark.Storm等),许多功

哥伦比亚大学副教授翁春华:大量的医疗数据不正确、不完整并且不可用

雷锋网(公众号:雷锋网)消息,近日,由HC3i中国数字医疗网.中关村移动互联网产业联盟移动医疗专委会主办的<2017中美智能医疗大数据峰会>在北京召开,众多专家出席探讨了智能医疗大数据存在的问题. 其中哥伦比亚大学医疗信息学系副教授翁春华以"云计算和大数据带来了很好的机会,但拥抱的同时也应该知道数据可能存在的局限性"开始了她的演讲,她指出医疗数据现状令人担忧. 据翁春华副教授介绍,医疗大数据存在的问题有数据质量不高.数据不完整.信息不具体.数据重复.数据分布不均与.信息不集