进入21世纪后,随着信息技术的不断发展,人类的数据化能力显著增强。2012年2月11日,美国《纽约时报》发表了一篇主题为“大数据时代”的专栏文章,最早明确地提出了大数据时代的来临,大数据也由此变成了一个火遍全球的热词。大数据不仅给人们的日常生活带来了很多变化,也对科学研究产生了巨大的影响。
在科研领域,从宏观到微观,从自然到社会,越来越多的观察、计算和传播等仪器设备正在产生着源源不断的海量、复杂的数据,这使得几乎每个学科领域都在面对着空前的数据爆炸。可以说,科学研究正在进入大数据时代。
2014年4月由国际科技数据委员会(简称CODATA)中国全国委员会编著的《大数据时代的科研活动》一书,就致力于对大数据时代科研活动发生的种种变化进行一个总体性的描绘。“我们主要从自然科学的视角,当然其中也涉及到一些社会科学的内容,来看待大数据时代给科研活动带来的挑战,讨论科研人员如何去应对,探讨会不会由此形成一个新的学科—数据科学,就是这本书的整体逻辑框架。”中国科学院计算机网络信息中心科学数据中心主任、CODATA中国全国委员会秘书长黎建辉告诉《中国科学报》记者。
“我们很早就开始这项工作了,大概从2011年3月开始。”黎建辉介绍道。2010年,中国科学院副院长、CODATA中国全国委员会主席丁仲礼提出,应当针对当时数据与科研活动相关的、前沿的内容作一些专门性的研究,并形成研究报告,使得科研人员对这类问题有更清楚的认识。于是,从2011年开始,CODATA中委会就开始组织一些对数据感兴趣的专家开会讨论,分析数据密集型科学研究的特点和面临的技术挑战,探讨国家应该在这方面作出怎样的部署和调整等内容。经过两年多的调研和研讨,在举办了四次大型专题研讨会议,并且针对研究报告中的每一篇文章进行了多次推敲和修改后,《大数据时代的科研活动》终于完成。
本书内容主要分为三部分。第一部分是对目前越来越多地利用数据来进行研究的科学领域的现状、特点、遇到的问题和未来发展趋势的分析,涉及研究领域包括高能物理、天文学、对地观测和生命科学等;第二部分是从数据采集、传输、存储与处理、数据整合、数据与文献互操作、数据挖掘及可视化技术等方面,探讨未来的科研活动中需要哪些技术支持以及这些技术的发展趋势;第三部分是对数据科学发展的展望。
对于大数据对科研活动的影响,黎建辉认为一个典型的例子就是天文学研究中的虚拟天文台。“天文学最早是个观测科学,主要是利用望远镜寻找新的星体等。但是现在,随着各种新型仪器设备的快速发展,人类逐渐有了对天象进行数据采集的能力和技术手段,由此产生了海量的复杂数据。所以,在未来的天文学研究中,观测能力已经不构成问题,真正的问题在于研究人员如何在浩如烟海的数据中进行分析和挖掘,找到需要的东西,提出科学问题。”黎建辉进一步解释道,“所以,在很早的时候就有人提出了虚拟天文台的说法,假设观测到的数据都能够共享,这些数据就可以形成一个天文台。与传统意义上由仪器设备所构成的天文台不同,这些由数据构成的天文台实际上是虚拟的天文台。在这样的环境下,科研人员如何协作、分析数据,怎么发现新的天文现象,都需要科学研究方法随之发生变化。”
黎建辉一直认为,大数据是一种现象,或者说是一个问题或挑战,应对大数据挑战的方法之一就是建立一个新的学科—数据科学。而所谓数据科学,就是从数据密集型学科中提炼出具有共性的问题和方法,从而形成的一个新学科。
目前,对于数据科学的内涵、外延、科学问题等都没有一个清晰的认识,也没有达到共识。但据黎建辉介绍,从去年开始数据科学发展态势加快,在国际上,美国的哥伦比亚大学、加州大学伯克利分校,英国的帝国理工学院等高校都成立了数据科学研究院,国内的清华大学也于今年5月成立了数据科学研究院。“现在,大家意识到数据科学似乎要出现了。”
“当然,正如计算科学刚出现时也面临着诸多质疑一样,有人也认为数据科学并不是一门科学,因为其实每个学科都可以叫作数据科学。”黎建辉说,“也有人认为,数据科学可以为其他学科的发展提供工具和模型支持,但在另一方面也有自己学科发展的需要。目前,对于数据科学还没有一个共识,还需要不断地讨论和碰撞。”