Nature:中国的科学进步仰赖于数据公开

大数据时代,生物信息学数据库的发展、数据共享,以及技术资源的易于访问等特点已经显现。直至最近,这股开放性科学研究的趋势正在帮助中国的科学家们走上国际竞争舞台。然而在整个中国社会,对于公共数据获取和分享的限制正愈演愈烈。如果这个问题不被解决,将会拖慢科学研究与创新。

中国科学家要想获取高质量国内数据正变得越来越困难。大部分的公共数据由政府部门掌握,增强了其垄断地位,使得研究者们获取信息变得更为困难。这对人文社科领域的研究者影响尤甚,同时由于一些数据涉及政治敏感性,也对环境科学、公共健康等领域的研究造成了影响。在会议上,我听到许多同事的抱怨,例如从权威部门获取空气污染数据是如何如何的困难。

即使数据被发布出来,一些数据也很可能因为采集方式上的问题而质量底下。最显著的例子莫过于在国内生产总值(GDP)上的争议。官方的全国性的GDP估值,与将31个省级区域的地方值相加的总和相比,存在极大的差异。北京的国家统计局承认,不同省采用不同的数据采集方式导致了这一结果,而他们正在试图协调这个问题。但至今,进展不容乐观。

公共数据分享已经变成了一种盈利模式。例如,如果采集分析道路车辆对于污染的影响的数据,将会是非常有价值的。然而要完成这一工作,必须能够得到每种型号车辆的牌照数量、道路拥挤情况、发动机参数、燃油标准等详细的数据记录。对于研究机构来说,想要从官方获取最基本的车辆持有辆的信息都十分困难,所以只能退而求其次地使用来自汽车制造商的销售数据,而这样的数据经常是被夸大的、带有误导性的。讽刺的是,财大气粗的汽车制造商们却可以以一定的价格,通过政府相关渠道购买到他们竞争对手的客观可靠的销售数据,这对于科研机构和科学家们来说是负担不起的。

在这样的环境下,中国的一些研究团队不愿意公开他们自己的研究数据也就不奇怪了。掌握数据意味着在学术领域拥有了无形的资本和竞争优势。我自己的研究团队就收到过许多索取海事数据的请求,例如我们所编集的口岸统计数据和船队信息,但我们并不情愿分享这些信息。寻找并将信息分类整理成可用的数据是一个耗费巨大的过程。如果我们独享这些数据,就可以用它开发出自己的研究成果。但要是从其他渠道能获得高质量的数据,我们也会乐意分享我们自己的数据。

开放公共数据,提高数据质量可以促进政府透明。尽管进展缓慢,还是存在公开透明化裨益中国社会的正面例子的。其中最瞩目莫过于2014年环保局迫于公众压力而全面公开披露空气污染数据的例子。在此之前,这类数据只是粗略地每天公布一次。而现在,数据每小时都更新一次并且在国内政府机构之间广泛分享。这些数据使卫生局能够对公众发布警告信息;使教育局可以决定是否因雾霾天停课;使交通运输局能够调整汽车限行政策。或许,全面公开污染信息最大的影响是提高了公众对于日益恶化的污染的危机意识。不幸的是,对于其他科学家所渴求的数据,公众并不一定都能像对空气污染数据那样感兴趣。实现公共数据的全面透明公开还是有很长的路要走。

这样的限制不仅仅存在于中国国内的数据。国外学术资源有时也难以获取。一些信息管理部门为了过滤疑似有害信息,人为设置了数字屏障。

我作为一名中国科学家的生活已经受到了影响。可靠的学术文献搜索几乎不可能。没有了谷歌学术搜索引擎(相对于别的学术搜索引擎我更喜欢谷歌,因为可以同时搜索书籍、论文、专利和技术报告),我只好一个个地去搜索出版商运营的数据库,至少目前它们还是可以访问的。

网络安全对国家安全是很重要的,但好的数据是科学进步和经济发展的支柱。资源共享信息的开放可以巩固经济和社会幸福。在中国,解决这些矛盾需要全面性的研究,以便我们建立起一套能够利于多方的高效合理的数据管理机制。更迫切的是,研究者们应当被给予更大的权限,特别是对于公共数据和学术搜索引擎。

原文发布时间为:2015-05-01

时间: 2024-09-20 08:10:29

Nature:中国的科学进步仰赖于数据公开的相关文章

10个巨大的科学难题需要大数据解决方案

在劳伦斯伯克利国家实验室的超级计算中心,我领导国家能源研究科学计算中心NERSC的数据和分析小组.在这个角色上,我追踪需要大数据分析来解决的前沿科学问题.超过6000个用户使用了NERSC的超级计算平台来解决各类科学问题,从天文学到有机生物学,从分子一直到亚原子物理.典型的数据集从十万兆字节到帕字节不等. 尽管NERSC已经有先进的计算和存储资源可以处理复杂逻辑,但是真正的挑战是在于选择可扩展的分析方法和软件框架.在本文中,我的科研合作者和我评论了在科学数据分析中最难的一些问题,希望能够邀请更多

大数据到底怎么学:数据科学概论与大数据学习误区

"数据科学家走在通往无所不知的路上,走到尽头才发现,自己一无所知."-Will Cukierski,Head of Competitions & Data Scientist at Kaggle 最近不少网友向我咨询如何学习大数据技术?大数据怎么入门?怎么做大数据分析?数据科学需要学习那些技术?大数据的应用前景等等问题.由于大数据技术涉及内容太庞杂,大数据应用领域广泛,而且各领域和方向采用的关键技术差异性也会较大,难以三言两语说清楚,本文从数据科学和大数据关键技术体系角度,来说

中国新电信组建成立大数据创新联盟,凝聚智慧,共赢发展

以互联网及大数据业务为重点的中国新电信集团(香港联交所股份代号:8167)宣布,集团中国区于2017年9月27日在深圳中国区总部组建成立"中国新电信集团大数据创新专家联盟",以政府.企业客户的业务需求为导向,凝聚智慧大脑,深挖数据价值,共策共赢,联盟的成立为发展大数据市场迈出了重要一步. 中国新电信大数据创新联盟秘书长刘佳先生表示,该联盟的战略定位主要有三个:1. 为数字政府与产业互联网提供规划咨询服务.2. 发挥投融资平台功能,引导社会资本投向大数据产业.3.共赢发展,聚焦大数据优秀

【深解读】什么是数据科学?如何把数据变成产品?

未来属于那些知道如何把数据变成产品的企业和个人.     --麦克.罗克德斯(Mike Loukides) 据哈尔•瓦里安(Hal Varian)说,统计学家是下一个性感的工作.五年前,在<什么是Web 2.0>里蒂姆•奥莱利(Tim O'Reilly)说"数据是下一个Intel Inside".但是这句话到底是什么意思?为什么我们突然间开始关注统计学和数据? 在这篇文章里,我会检视数据科学的各个方面,技术.企业和独特技能集合. 互联网上充斥着"数据驱动的应用&q

《数据科学与大数据分析——数据的发现 分析 可视化与表示》一导读

前 言 数据科学与大数据分析--数据的发现 分析 可视化与表示 大数据可以帮助企业从他们最宝贵的信息资产中挖掘到新的商机,从而创造出新的价值并形成竞争优势.对于企业用户而言,大数据可以帮助提高生产效率.提升产品质量和提供个性化的产品和服务,从而帮助改进客户满意度并提升企业利润率.对于学术界而言,大数据分析提供了一种更加先进的分析手段,可以帮助获取更丰富的分析成果和更深入的洞察力.在许多情况下,大数据分析集合了结构化和非结构化数据的实时获取和查询,开拓了创新和洞察的新路径. 本书将介绍大数据分析中

中国企业的转型路径从数据整合开始

文章讲的是中国企业的转型路径从数据整合开始,在2012年美国<财富>杂志按营收进行排名的全球企业500强中,中国的企业已经占据了79席,仅次于美国的132席.<财富>杂志认为,未来中国上榜企业的数量还会继续增长,甚至会超越美国. 很多人都清楚地记得9年前联想集团收购IBM PC业务的情景,并把这桩交易比喻为"蛇吞象".然而在今天,中国企业并购海外大型企业的"蛇吞象"越来越多:浙江吉利集团收购德国沃尔沃汽车公司.中信证券收购里昂证券.大连万达集

普拉伯特:10个巨大的科学难题需要大数据解决方案

在劳伦斯伯克利国家实验室的超级计算中心,我领导国家能源研究科学计算中心NERSC的数据和分析小组.在这个角色上,我追踪需要大数据分析来解决的前沿科学问题.超过6000个用户使用了NERSC的超级计算平台来解决各类科学问题,从天文学到有机生物学,从分子一直到亚原子物理.典型的数据集从十万兆字节到帕字节不等. 尽管NERSC已经有先进的计算和存储资源可以处理复杂逻辑,但是真正的挑战是在于选择可扩展的分析方法和软件框架.在本文中,我的科研合作者和我评论了在科学数据分析中最难的一些问题,希望能够邀请更多

Cloudera全新数据科学工作台加快企业数据科学及机器学习

近日,机器学习和先进分析平台提供商Cloudera发布了测试版Cloudera数据科学工作台(Data Science Workbench),它是一款基于Cloudera企业版运行数据科学的自助工具.Cloudera数据科学工作台以去年所收购的数据科学初创企业Sense.io的技术为基础,使数据科学家可以使用其偏好的开源语言(包括R.Python和Scala),集成原生Apache Spark和Apache Hadoop的安全企业平台上的资源库,从而加快分析项目从探索到生产的进展速度. Clou

科学理性拨开大数据的神秘外衣

科学理性拨开大数据的神秘外衣 --关于大数据的几个重要观点 大数据产业链基本架构(资料来源:上海科学技术情报研究所整理) 大数据概念的升温,引来了很多争议.有人称之为"新瓶装旧酒",也有人认为大数据的机遇被过于夸大.其实,这些都与没有真正理解大数据的本质有关.任何事物的发展都有其客观规律,大数据并非是"石头里蹦出来的孙悟空",它也有自己的"亲生父母"--计算机科学和数据科学.正是由于两者的融合,以及生命科学.地理科学甚至社会科学等各领域数据化程度