当今数据科学领域最流行的工具之一是开源编程语言R语言,它广泛的应用于各个领域。简单来说,R语言就是一种数据语言。过去的20年间,全世界的统计学家已经为开源语言R语言做出了许多创新性的贡献。这些贡献意味着,R语言开发者们能够找到一种方法来接触到那些边缘学科运算规则的资料库(不再受统计学知识的限制),从而能够很迅速地开发出智能分析应用程序。正是如此,R语言变得越来越好,非常受用户欢迎,应用的行业也更加广泛。
我们已经可以看到R语言的强大功能既适用于初创企业,也可以在传统企业中发挥作用:比如,挪威的e-smart语言智能系统已经在云端配置了基于R 语言的预测模型,这一功能的用途是可通过智能电表中的数据来帮助优化国家电网;美国世纪投资公司正是使用R语言作为量化投资平台的基础;国家气象局在河流预报中心也使用R语言用来帮助预测洪水;再比如,房地产分析公司TRulia使用R语言帮助预测房价;除此之外,R语言还作为Twitter网站大数据工具箱的一部分,用于监测网站的用户体验。类似的例子数不胜数,数量也在增加,足以看出R语言的强大功能及广泛的应用。
尽管R语言已经广泛地被使用,但实际上,我们才刚刚开始意识到当今高级统计平台的力量。在未来的5至10年内,几乎在每个应用软件及程序、互联网设备和智能手机中都可以看到机器学习和智能分析的影子。面对如此之多的挑战亟需解决,业界必须确保R语言作为正确的工具交到正确的人手中,这些人致力于寻找那些浩瀚而珍贵的数据库的答案。
R语言基金会一直致力于开拓市场,用以支持R语言的发展并且扩大使用R语言的客户群,在此同时,还有更多的任务需要完成,这样才能让全世界的开发人员在企业中充分利用R语言,使其功能得到最大程度的利用。目前为止,得到了业界支持之后,主要在三方面能够帮助加快R语言的发展进度:
1.测试:强大的软件测试方法和基础设施,更有助于开发R语言的新版本语言包,毋庸置疑,这对R语言社区将极其有利。如果能够切实做到保证候选发布版的高品质,并且能够在后续的发布版本也保持兼容性,那么在企业内部应用中将会大大提高R语言代码的可重复性和可靠性;如果这样,那么R语言的应用将会更加方便。
2.可扩展性:目前而言,R语言功能的实现普遍是内存受限的。然而非常戏剧性的是,当今很多时候我们正在分析的数据集却全都比计算机内存更大。只要努力实现R语言的功能,充分利用这一既强大又科学的语言,就能够使企业更方便更轻松地处理数据任务(尤其是与大型数据集有关时)。
3.面向未来:R语言需要不断创新,这样才能够确保它在当前的和未来的分析环境中都可以继续发挥作用,这些分析环境包括比如Hadoop、Spark以及下一代的数据库。这需要持续不断地接受教育,并且与全世界各地的R语言组织和数据开发人员通力合作才能完成,这需要我们我们共同努力,才能使R变得更好。
R语言的统计编程部分不仅简洁优美而且具有良好的灵活性,这使得它已经在金融、医疗、社会科学、公共事业领域都取得了重大突破。一直以来都有各方面的支持伴随着它的发展,因此我们期待在这个崭新的联结密切的世界中,可以看到数据科学和统计学应用程序中取得革命性进步。
有一个R语言联盟(微软公司是其中的一个创始成员),联盟最近公布的目标是:在一个开放的开发环境中领导R语言的未来道路。R语言联盟将会帮助R语言以更快速的步伐造福它的每一位爱好者和使用者。R语言联盟将持续不断的努力,为数据科学的发展创造沃土。在高科技行业的强有力支持下,不管是现在还是未来,R语言基金会和R语言联盟都将继续投入精力,力争使R语言成为更棒的语言。
本文作者:Joseph Sirosh
来源:51CTO