事实证明,无需掌握艰深的数据科学,我们同样能够在机器学习的世界中徜徉。当然,这段旅程不可避免地需要借助各类大数据、人工智能、深度学习与规模化统计与分析工具的帮助。
在今天的文章中,我们将共同了解三款最具人气的Python机器学习库,相信能够帮助大家带来更为顺利的数据科学探索体验。
1、Theano
约十年前诞生的机器学习方案Theano,是目前机器学习领域使用范围最广的CPU与GPU数学编译器之一。
在《Theano:用于快速实现数学表达计算的Python框架》这篇论文当中,作者对这套库进行了全面的概述。“Theano包含多款软件包,用以强化自身功能。能提供高水平用户界面,足以处理多种特定目标,”论文解释称:“其中的Lasagne与Keras能够有效简化深度学习模型以及作为数学表达式的训练算法的架构表达。事实上,概率编程框架PyMC3就在利用Theano以自动生成表达式并快速执行所生成的C代码。(Keras与Lasagne同时运行在TensorFLow与Theano之上。)。”
Theano目前在GitHub上拥有超过2万5千项提交成果以及近300名贡献者,fork次数将接近2千次。
2、TensorFlow
TensorFlow是一套利用数据流图形进行数值计算的开源库。尽管只是开源领域的一名新兵,但这一由谷歌公司牵头的项目已经拥有近1万5千条提交成果以及超过600名GitHub贡献者,模型库的星评更是逼近1万2千颗。
在第一份《开源年鉴》当中,TensorFlow被选为2016年最值得fork项目。而在最新的《开源年鉴》内,TensorFlow同样多次亮相。基于TensorFlow的Magenta项目甚至在尝试将机器智能同艺术领域加以联系,探索如何利用它来实现音乐与艺术创作,并由此建立起以艺术家、程序员以及机器学习研究者的混合型社区。另外,Tensorflow支持多种前端语言,但对Python的支持是最好的,Python还被列入2017年热门编程趋势排行。
TensorFlow 1.0于今年2月中旬推出。谷歌在其开发者博客中写道:“尽管刚刚诞生一年,但TensorFlow已经切实帮助研究人员、工程师、艺术家、学生以及其他各类用户完成各类工作,它范畴涵盖语言翻译、皮肤癌早期诊断乃至糖尿病患者并发性失明预防等领域等”。
3、scikit-learn
这套方案立足于NumPy、SciPy以及Matplotlib,并被Spotfiy公司的工程师们用于进行音乐推荐。而在OkCupid公司,是负责对匹配系统进行评估与改进。在Birchbox公司,工作人员正在摸索如何利用scikit-learn支持新产品的开发。
Scikit-learn目前在GitHub上拥有近2万2千条提交成果与800名贡献者。
本文来自开源中国社区 [http://www.oschina.net]