最近,关于Twitter向科学家免费开放所有数据的事引发关注。虽然,其中会有隐私问题,但是,此举对大数据科研无疑利大于弊。
一、Twitter免费向科学家开放所有数据
大数据时代,研究人员对数据的需求太强烈了。所以,当今天看到Twitter免费向科学家开放所有数据的消息后,颇感欣慰。
实际上,今年2月,Twitter即宣布将把2006年以来的所有数据免费提供给研究人员,有望使得Twitter成为一项广受欢迎的研究工具。借助如此庞大的数据,科学家可以展开更加复杂的研究,瞄准更具体的问题。
要知道,目前,许多科学家在研究项目时,只能使用有限的Twitter消息。尽管多数Twitter消息都对外公开,但科学家却希望能够随意搜索这些内容,他们目前只能通过Twitter的API实现这项功能,但却只能访问1%的数据。
这显然是不够的。如果Twitter能如其所言,免费向科学家开放所有数据,则对科学家们而言,则是无不拍手称快的喜讯。
二、免费开放所有数据举动利大于弊
应该承认,开放所有数据,或多或少存在">用户信息泄露的情况,甚至存在一些独创内容的版权使用问题。还有人提出:Twitter能否对相关科研结果享有任何权益?由于用户未必想将自己的内容贡献给研究人员,因此有人质疑Twitter此兴趣是否有违道德?
然而,如果在遵守相应法则的情况下,免费向科家开放所有数据显然是利大于弊,甚至用“功在当代,得在千秋”也许都算不上太夸张。
如果说,利用大数据辅助美女长相分析、足球队的运营、奥斯卡奖项预测及总统选举结果预测,与普通民众关系未必那么密切的话,那么,利用大数据在公共安全、疾病预测及地震信息跟踪等方面的研究,则会为人类带来更多的利益。
君不见,有科学家利用大数据成功预测了流行病的爆发,有利用动态交通大数据减少拥堵,有公安利用大数据预防犯罪或提高破案率,还有对Twitter上的怀孕妇女透露出的情绪,开发了新算法预测产后抑郁症的风险,以及美国地质调查局使用Twitter追踪地震发生地,并进行相应的分析。
三、大数据发展急需全面可靠的数据
其实,大数据研究中对于数据的需求是相当迫切的。如果数据缺乏, 则不仅不会研究出可靠的成果,还可能引发外界的质疑。
由于数据的问题,外界有时会有“数据会撒谎“的说法。实际上,最近的一些深度分析即指出:会说谎的不是数据,而是缺乏数据。
实际上,许多有远见的企业已经认识到:数据也是一种资产。这也就是说,数据是宝贝,数据有价值,数据中隐含着许多重要的东西。然而,要从数据中发掘出重要的价值,前提就是要有更全面及更可靠的数据,否则模型再好,算法再高明,也很可能无法得到可靠的结果,甚至徒劳无功。
虽然有很多网络上的数据是公开的,可以随时抓取,但是仍然有许多数据是半公开(如上述Twitter原来仅能使用到1%左右的数据),或不公开。这无疑会对许多重要的研究带来许多的不便。
说到这里,也希望中国的大企业(发阿里、百度、腾讯、新浪等等)也能以更开放的心态,向重要的科研项目开放更多的数据。如果能如Twitter一样,向科学家全面免费开放数据,则真的是功德无量。
最后,提醒许多商业机构,上述Twitter的免费数据开放应该是针对科学家的,如果是商业分析用的数据,让Twitter全面免费开放恐怕不易,因为使用这些数据多数是要付费的。(作者:陈永东,中国十大IT博主,新媒体研究者,电子邮件:cyd888@sina.com)