大数据人才流失: 科研为何陷入困境


无论无处不在的“大数据”概念引起怎样的联想,逐步增长的数据规模确是改变着我们和世界的交互方式。这在工业界、政界、媒体、学术界,几乎任何领域,都是事实。逐渐增强的对大数据进行收集、处理、抽象化,并从中得到启发的能力,拓宽了我们的知识面。

然而近年来,科学研究领域加速转变到以数据为核心,是有负面影响的。总结来说就是:称职的科学研究者需要的能力,和称职的工业界从业人员需要的能 力,越来越无法区分。具有典型惰性的学术界刚刚开始适应这一转变,而其他领域早已开始大规模鼓励和奖励这种能力。不幸的是,这导致了很多有才的准研究者难 以在学术界立足,只能投入财大气粗的工业界的怀抱。

数据的神奇效果

20世纪60年代,物理学家Eugene Wigner发表了他的著作:数学在自然科学界的神奇效果。它论述了抽象的数学概念在上下文中的有效性,远远超过产生这些概念的上下文,其差距到了惊人的 地步。毕竟,谁能想到Riiemannn在20世纪研究的非欧集合会是爱因斯坦重新思考万有引力的基础?谁又能想到,抽象固体的旋转群的编纂几乎最终导致 了物理学家成功地预测希格斯玻色子的存在?

谷歌研究者Alon Halevy, Peter Norving和Fernando Pereira于2009年以“数据的神奇效果”为题发表的文章响应了这一观点。文章展现其惊人的洞察力:只要有足够的数据,数学模型的斟酌选择不再重要 —尤其是对他们所研究的自动语言翻译来说,“比起很少的数据及其精确模型,简单模型和大量的数据更有胜算”。

如果我们大胆假设这个观点可以延伸(至少是部分延伸)至自然语言处理之外,那么仅仅是数据挖掘这一项技能都会逐步打败领域知识。我相信这一预言已被证实:众多学术领域,有效地处理数据的能力正在取代其他更经典的研究模式。

我并不是说对某一领域的精通已经完全过时。如果不理解粒子相互作用理论,大型强子对撞机(LHC)产生的10Gb每秒的速度将一无用处,就像只有理 解物理过程驱动空间爆炸的理论,大型天文望远镜(LSST)产生的每晚15TB的原图像数据才能帮助我们理解宇宙学。然而,LHC和LSST反映了越来越 普遍的现象:科学研究结果完全依赖对大量数据的精确分析。实际上,我们发现,即使数据量并不足够“大”,能够对它们处理、抽象、挖掘和从数据中学习的研究 者也在逐步促进科学进步。

新型科学家

从某种意义来说,数据驱动的研究是过去的研究趋势的简单延续。自16-17世纪科研分离出亚里士多德哲学,科学进步已基本依赖试验和观察。要知道, 是第谷16世纪开创性的对天空的研究,促动了17世纪开普勒的行星运动规律的研究,继而为牛顿的万有引力定律铺平道路,最终形成爱因斯坦的广义相对论。科 学家始终在努力处理数据,区别只在于这一努力如今正成为科学研究过程的核心。

不过,科学研究逐步以数据为中心已经产生了解决问题的新办法:进入LHC、LSST时代,善于运用高性能并行数据统计算法探索大量的群体性数据集的 研究者,以及新的统计方法、机器学习算法、高速代码,以前所未有的规模重复进行典型分析的应用,推动了振奋人心的研究。简而言之,新型科学家一定是精通统 计、计算、构建算法、软件设计、领域技能(可能作事后使用)的多栖专家。在粒子物理学、生物学、化学、神经科学、海洋科学、 大气物理学等几乎所有领域,研究越来越趋向于数据驱动,同时数据收集的速度丝毫没有放缓的迹象。

科学软件的基础作用

科学软件的共同点,是这些工作都离不开编写代码。高质量的、组织良好的公共代码才能对科学过程极为重要的重现产生影响。诸多公共软件都是关于当前的非再生性科学危机、新的出版形式的需要、新的研究、代码和数据公开访问。此处不再详谈更多。

此处我想详细讨论的是,优化的专业软件对大型数据集分析和抽象的核心作用,以及它成为现代科学研究的核心的演绎过程。我的合作者Gael Varoquauz以及他的同事最近发表评论证实了这一观点(见Gael的简介),并就公共的,组织良好的健壮的科学代码对于现代科学研究的重现性和研究 本身的进步都必不可少这一论点进行了实例研究。过去的研究结果,如果只是在论文中简单提及,而产生这结果的实际过程的代码未经组织,这样的结果就不能作为 新的研究的基础。就像是Buckheit和Donoho曾说的:

学术期刊上的计算科学的文章并不是学术,他们只是学术的幌子。真正的学术是完整的软件开发环境,以及计算出数字的完整指令集。

公开代码看起来像是马后炮,但是一般来讲,仅仅发布代码是不够的。像Brandon Rhodes在Rupy 2013 Talk中说的那样,“一个程序运行正常,总好过它勉强能正常运行”。让代码对在科学研究之外的作者有用需要相当大的投入。这种项目具有难以估计的价值, 就像NumPy项目,Scikit-learn项目,等等。它们为研究者提供一个框架,在此框架下,代码可以共享,在github上共同审阅和发布,以此 造福研究社区。

学术界的断层

这是学术界的弊病:尽管有层次的高质量软件正成为现在的科学研究模式的核心,并且这些实践将有助于学术研究的成功,学术界却非常成功的阻止了这一实 践。“发表或者毁灭”的模式中,论文制约着大多数研究型高校,相当于学术奖励框架的货币,而花费在构建和编写软件工具上的时间统统不算是写论文的时间。这 就导致,除非是某种特殊情况,专注于可复用的开放软件的人很难在学术界获得晋升的机会。这些可怜的人们,期待着在科学软件的发展而不是研究论文中获得成 就,往往会发现他们已置身于学术群体的边缘。

某种程度上,这种断层一直存在。学术界总奖励某些技能,而损害其他技能:教学就是一个长期被边缘化的技能。然而这其中的两个主要的区别使得学术界的断层更加令人担忧:

前面提到的构建和编写软件工具的技能,正滑向学术奖励框架边缘,而它恰恰是现代的研究能否成功的关键

几乎全世界都在使用密集数据挖掘工具的同时,学术界忽略的不以为然的技术正是工业界最看重最鼓励的

这场风暴导致技术纯熟的研究者渐渐滑离研究而偏向工业界。学术界尽管也存在专注于软件的工作,但那些工作基本薪水很低,没有地位,也没有晋升及机 会。与之相比,工业界吸引力超高:它致力于解决有趣的紧迫的问题,提供优越的薪水和福利,帮助博士后从工作站之间的迁徙中解脱出来,甚至鼓励基础课题的研 究和发表。这种情况下还能留在学术界简直是奇迹。

我所研究的天文学和天体物理领域尤其让人担心。LSST项目正在筹备这一个十年底的第一个目标:十年内能够实时处理每晚30TB的数据,这一目标极 其激进。要处理这样大量的数据,未来几年,这个项目可能要招募数十名以数据为中心的天文学研究者。考虑到所需技术和当前的薪酬水平,以及学术界面向工程的 工作的发展前景,我很怀疑它能够吸引到足够的应聘者。

学术界该如何适应

不止我一人在考虑这些问题。我和国内外很多人们讨论过文中提到的一些话题,了解到有些制定政策的人们和资助机构也正在思考这些严峻的问题。但是更现 实的问题是怎样解决这些问题,阻止它恶化。抱怨学术界的文化是学者们的常事,Deidre McCloskey的“学术威望法则”印证了本文的一些观点:越是实用的领域,越没有地位。这话原是在哀叹基本的论文像是新手的作品从而地位低下,却很适 用于现在的主题。

我认为威望才是关键:学术界采取审慎的措施追赶工业界的脚步,对于数据驱动的研究必不可少的软件,给予其开发者更多的声望,才是解决这些问题的办法。研究者,资助机构和制定政策的人们也可以采取行动来促进这一过程。以下是一些建议:

学术刊物持续强调可重现的重要性。可重现性是科研过程本身必不可少的要素,而它依赖于开源的高质量代码。将这些代码视作论文发表的重要组成部分,能够提高软件开发者在学术团体的地位。

推动建立终身制教授评价的新标准。新的标准同时考量公共软件的开发和维护以及传统的论文发表和教学,这样投入到编写整洁的公共代码的时间就不会再被遏制。

创建并资助新的学术就业体制,帮助博士毕业生、博士后研究员、研究员和终身教授的就业。就业职位应特别看重和奖励公共的,跨学科的科研软件的开发,从而为愿意构建和维护通用的基础软件的研究者提供可行的学术职业发展道路。

提高博士后科研职位的薪酬。这个建议可能存在争议,但现在的薪酬水平根本无法保持下去。NIH职位为应届毕业的博士后提供的基本工资是每年四万刀 以下。博士后工作七年涨到每年五万刀。若精通构建和维护软件工具的应届博士后就职于工业界,薪水会多出好几倍,并且工业界尊重他们的计算能力,他们也可以 运用这些能力研究自己感兴趣的问题。我很担心,学术界不及时作出这些调整的话,未来几年的科学研究将遭遇严重的障碍。

我们生活在一个振奋人心的时代,加速增长的收集、存储、处理和学习海量数据的能力,使得我们对世界的科学认识的宽度和广度都在增加。要保持这探索新 事物的节奏,我们需要激励研究人员安于研究团体。这不是轻而易举能解决的问题,但是努力才能保证科研在未来可以健康和可持续的发展。

我衷心的感谢众多参与讨论和推动这些想法的同事,尤其是Bill Howe以及Fernando Perez。同时也感谢我的好朋友Will Mari(@willthewordguy)的审阅和反馈。

文章转载自 开源中国社区[http://www.oschina.net]

时间: 2024-09-17 03:32:21

大数据人才流失: 科研为何陷入困境的相关文章

清华大学数据科学研究院与Cloudera联手发布大数据人才教育项目

根据IDC研究显示,大数据解决方案将在未来四年中,帮助全球企业分享大约1.6万亿美元新增收入的数据红利.在大数据产业发展中,以Hadoop为代表的开源大数据生态成为大数据和云计算的重要技术支撑,有效推动了开源社区的用户和贡献者,带动了技术进步与商业发展.而在全球范围内,大数据行业正在面临数据专业人才短缺的困境. 2016年8月5日,清华大学数据科学研究院("清华数科院")宣布与Cloudera合作. Hadoop之父.Cloudera首席架构师Doug Cutting与清华大学数据科学

专注大数据人才培养 “贵州理工学院-阿里巴巴大数据学院”今秋开学

全国第一所由阿里巴巴和高校合建的大数据学院即将开学.去年12月签约后,"贵州理工学院-阿里巴巴大数据学院"尘埃落定,将成为我国西南腹地培育大数据专业人才的摇篮. 5月25日,贵州理工学院与阿里云宣布"贵州理工学院-阿里巴巴大数据学院"正式启动,将在今年秋季迎来第一批本科学生. "贵州理工学院-阿里巴巴大数据学院"是全国第一所由阿里巴巴与高校联合冠名的大数据人才培养学府,是贵州省人民政府与阿里巴巴战略合作的重要落地项目之一. 大数据学院将按照4年本

蓝点数据携手北京大数据产业人才实训基地培养大数据人才

10月20日,北京市科委授予北京宏福大数据基地为北京大数据产业人才实训基地,授牌仪式暨大数据人才培养计划新闻发布会在宏福大厦隆重召开.在新闻发布会上,代表产业的宏福大数据基地和蓝点大数据,与有深厚科研学术背景的北京大数据研究院,签订了在大数据的产业发展促进.科研成果转化.企业项目研发.学术交流.校企合作.高端人才培养等领域的三方战略合作协议,会上发布了<大数据人才培养计划>. 未来,在政府的大力支持下,将充分利用北京大数据人才实训基地的产业背景优势,整合政府.企业.科研和院校的教育资源与实训资

调查报告:云计算、大数据人才紧俏

俗话说"金三银四",现下正是人才市场供需两旺的季节.对于企业来说,利用该"档期"在四处寻猎心中的最佳人选,填补或公司组织机构调整.或人才流失造成的岗位空缺.对于求职者来说,春节之后,公司内部调整.个人职业生涯规划等因素都将影响他们是否愿意重新回到工作岗位上,如果选择变更,去哪里便成为心头的一个结. 互联网行业在最近几年的发展速度越来越快,云计算.大数据.智能硬件等等新名词新事物一一出现,并迅速成为热点.新技术.新产品迅速发展的背后,人才是支撑其发展的重要砝码,也成为

大数据人才紧缺 两会代表建言政企协力推动人工智能发展

从年初谷歌围棋程序AlphaGo击溃欧洲围棋冠军开始,大数据人工智能成为热议话题,而3月9日即将展开的AlphaGo和世界冠军李世石的对弈也吸引着全球的眼睛. 有人觉得这是一场人类智慧与机器智能的巅峰对决,有人则认为这是大数据人才培养.人工智能需要纳入国家教育计划的一场战斗. 在全国两会上,全国人大代表.科大讯飞股份有限公司董事长刘庆峰提出建议,推动中国人工智能的发展和中国脑计划.建立国家教育大数据.打通"一行三会"建立国家金融大数据.推动无人机监管,健全创新创业扶持保障等.其中,人才

拼钱拼福利!云计算、大数据人才遭哄抢

本文讲的是拼钱拼福利!云计算.大数据人才遭哄抢[IT168 评论]2016年最热门的技术是什么? 云计算&大数据毫无悬念的成为首要,不夸张的说这股浪潮正在席卷着全球所有的行业. 据悉,2015年,全球最知名职业人士社交网站LinkedIn公布的最受雇主喜欢.最炙手可热的25项技能中, "云计算"位列第一,"数据分析"排名第二,而传统IT技术则并未上榜.在国内,大数据.云计算人才的缺口也已高达到百万级,众多企业开出巨额高薪四处挖掘云系人才&数据分析能手

招聘市场:云计算、大数据人才紧俏

俗话说"金三银四",现下正是人才市场供需两旺的季节.对于企业来说,利用该"档期"在四处寻猎心中的最佳人选,填补或公司组织机构调整.或人才流失造成的岗位空缺.对于求职者来说,春节之后,公司内部调整.个人职业生涯规划等因素都将影响他们是否愿意重新回到工作岗位上,如果选择变更,去哪里便成为心头的一个结. 互联网行业在最近几年的发展速度越来越快,云计算.大数据.智能硬件等等新名词新事物一一出现,并迅速成为热点.新技术.新产品迅速发展的背后,人才是支撑其发展的重要砝码,也成为

大红大紫的大数据 人才紧缺该怎么办?

2009年,"大数据"成为互联网信息技术行业的流行词汇,正式进入了大众的视野. 在经历了几年的批判.质疑.讨论.炒作之后,大数据终于迎来了属于它的时代. 2012年3月,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将"大数据战略"上升为国家战略.奥巴马政府甚至将大数据定义为"未来的新石油". 2016年3月国家将大数据战略纳入十三五规划. 大数据来势汹汹,已是时代的主流 现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来

大数据“人才赤字”待弥补

"大数据之都"贵阳的招牌活动"数博会"启动在即,一则贵阳市"筑巢"吸引大数据人才"金凤凰"的消息率先引起了业界和媒体的注意:贴着"奖励政策丰厚"标签的<贵阳市大数据"十百千万"人才培养计划实施方案>正式出台. 按照该方案,到2018年贵阳市将选拔培养大数据领军人才10名以上.大数据创新人才100名以上.机关企事业单位大数据优秀人才1000名以上.大数据专业人才和基础人才数万名