值得mark的11个开源机器学习项目

垃圾邮件过滤、人脸识别、推荐引擎——当你有一个大数据集并且希望利用它们执行预测分析和模式识别,机器学习是必经之路。这门科学,计算机可以在没有事先规划的前提下自主学习、分析和操作数据,现在越来越多的开发人员关注机器学习。

机器学习技术的兴起不仅是因为硬件成本越来越便宜以及性能越来越强大,促使机器学习在单机或大规模集群上轻松部署的免费软件激增也是重要因素。机器学习库的多样性意味着无论你喜欢什么语言或环境,都有可能是获得你喜欢的。

1. Scikit-learn

Python由于其易用性以及丰富的函数库,已经成为数学、自然科学和统计学的首选编程语言。Scikit-learn通过在现有Python包上构建——NumPy SciPy和matplotlib——服务于数学和自然科学。生成的库要么可以使用交互式“工作台”应用程序,要么被嵌入到其他软件和重用。工具箱可以在BSD许可下获取,所以它是完全开放和可重用的。

Project: scikit-learn
GitHub: https://github.com/scikit-learn/scikit-learn

2. Shogun

在最古老、最值得尊敬的机器学习库中,Shogun创建于1999年,用C++编写,但并不限于在C++工作。由于SWIG库,Shogun可以轻松在Java、Python、C#、Ruby、R、Lua、Octave、Matlab语言和环境下使用。

虽然德高望重,Shogun也有其他的竞争者。另一个基于C++的机器学习库Mlpack在2011年出现,它宣称比其他竞争者速度更快并且更容易使用(一个更完整的API集)。

Project: Shogun
GitHub: https://github.com/shogun-toolbox/shogun

3. Accord Framework/AForge.net

Accord,一个.Net的机器学习和信号处理框架,是早前类似一个项目AForge.net的扩展。顺便说一下,“信号处理”这里是指一系列对图像和音频的机器学习算法,如图片无缝缝合或执行人脸检测。包含一组视觉处理算法;它作用于图像流(如视频),并且可用于实现移动对象的跟踪等功能。Accord还提供一个从神经网络到决策树系统的机器学习常见库。

Project: Accord Framework/AForge.net
GitHub: https://github.com/accord-net/framework/

4. Mahout

Mahout框架一直与Hadoop相关联,但旗下很多算法还可以脱离Hadoop运行。他们对那些可能最终迁移到Hadoop上的应用程序或从Hadoop上剥离成为独立应用程序的项目非常有用。

Mahout缺点之一:目前几乎没有算法支持高性能的Spark框架,反而使用日益过时的MapReduce框架。该项目目前不接受基于MapReduce的算法,那些想要获得更高性能的开发者转而用MLlib 替代。

Project: Mahout

5. MLlib

Apache自己的Spark和Hadoop机器学习库,旨在为大规模和高速度而设计的MLlib自称拥有所有常见的算法和有用数据类型。与任何Hadoop项目一样,Java是MLlib上的基本语言,但是Python用户可以用MLlib NumPy库连接(也用于scikit-learn),并且Scala用户可以针对MLlib编写代码。如果不能设置一个Hadoop集群,MLlib可以在没有Hadoop的情况下部署在Spark上——以及在EC2或Mesos上。

Project:MLlib

全国大数据创新项目评选活动目前正在如火如荼进行中,详情点击这里。

2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014)将于2014年12月12日-14日在北京新云南皇冠假日酒店召开。传承自2008年,历经七届沉淀,“中国大数据技术大会”是目前国内最具影响、规模最大的大数据领域技术盛会。本届会议,你不仅可以了解到Apache Hadoop提交者Uma Maheswara Rao G(兼项目管理委员会成员)、Yi Liu,以及Apache Hadoop和Tez项目管理委员会成员Bikas Saha等分享的通用大数据开源项目的最新成果和发展趋势,还将斩获来自腾讯、阿里、Cloudera、LinkedIn、网易等机构的数十场干货分享。 当下门票团购还有些许优惠, 预购从速。

免费订阅“CSDN大数据”微信公众号,实时了解最新的大数据进展!

CSDN大数据,专注大数据资讯、技术和经验的分享和讨论,提供Hadoop、Spark、Impala、Storm、HBase、MongoDB、Solr、机器学习、智能算法等相关大数据观点,大数据技术,大数据平台,大数据实践,大数据产业资讯等服务。

时间: 2024-09-15 13:55:00

值得mark的11个开源机器学习项目的相关文章

28款GitHub最流行的开源机器学习项目(二):TensorFlow排榜首

推荐:28款GitHub最流行的开源机器学习项目(一):TensorFlow排榜首 15. XGBoost XGBoot是设计为高效.灵活.可移植的优化分布式梯度 Boosting库.它实现了 Gradient Boosting 框架下的机器学习算法.XGBoost通过提供并行树Boosting(也被称为GBDT.GBM),以一种快速且准确的方式解决了许多数据科学问题.相同的代码可以运行在大型分布式环境如Hadoop.SGE.MP上.它类似于梯度上升框架,但是更加高效.它兼具线性模型求解器和树学

28款GitHub最流行的开源机器学习项目(一):TensorFlow排榜首

1. TensorFlow TensorFlow 是谷歌发布的第二代机器学习系统.据谷歌宣称,在部分基准测试中,TensorFlow的处理速度比第一代的DistBelief加快了2倍之多. 具体的讲,TensorFlow是一个利用数据流图(Data Flow Graphs)进行数值计算的开源软件库:图中的节点( Nodes)代表数学运算操作,同时图中的边(Edges)表示节点之间相互流通的多维数组,即张量(Tensors).这种灵活的架构可以让使用者在多样化的将计算部署在台式机.服务器或者移动设

谷歌机器学习项目备受关注的四项核心

作为最初被设计为支持谷歌系统规模伸缩的技术方案,TensorFlow目前已经可为每位用户也享受. 作为谷歌公司专门为应用智能化目标打造的开源机器学习项目,每个人都能轻松选择TensorFlow,而它也会根据各类头条消息预测用户的行为与喜好.不过除此之外,该项目还拥有更加野心勃勃的目标,即随着数据规模的持续增长成为开源机器学习系统日渐庞大的生态系统整体的重要组成部分. 以下为四项TensorFlow值得技术从业者加以关注的重要理由 1.它将成为谷歌内部机器学习系统的下一代方案 根据谷歌公司CEO

超全!基于Java的机器学习项目、环境、库...

你是一名希望开始或者正在学习机器学习的Java程序员吗? 利用机器学习编写程序是最佳的学习方式.你可以从头开始编写算法,但是利用现有的开源库,你可以取得更大的进步. 本文介绍了主要的平台和开放源码的机器学习库.你可以使用这些机器学习库. 环境 本节描述了用于机器学习的Java环境或工作域.它们提供了用于执行机器学习任务的图形用户界面,还提供了用于开发自己应用程序的Java API. WEKA 怀卡托环境知识分析(Weka)( https:// www.cs.waikato.ac.nz/ml/we

嵌入式 十个最值得阅读学习的C开源项目代码

开源世界有许多优秀的开源项目,我选取其中十个最优秀的.最轻量级的C语言的项目,希望可以为C语言开发人员提供参考. 十个最值得阅读学习的C开源项目代码 1. Webbench 2. Tinyhttpd 3. cJSON 4. CMockery 5. Libev 6. Memcached 7. Lua 8. SQLite 9. UNIX v6 10. NETBSD 十个最值得阅读学习的C开源项目代码 1. Webbench Webbench是一个在linux下使用的非常简单的网站压测工具.它使用fo

一些值得关注的开源SDN项目

本文译者:朱金林:UT斯达康通讯有限公司sdn软件工程师(zhu_jinlinxue@163.com),主要研究:ovs和l2switch以及vxlan技术 Opensourcesdn.org是一个开源SDN社区,无论是自由的SDN开发人员或者是想要开展开源项目的学生或研究团体.或者是SDN公司代码团队的成员,都可以在该社区找到SDN软件资源.本文是译自Opensourcesdn.org网站上的一篇关于开源SDN项目的文章. 1.PIF项目 协议独立转发项目:用于数据通路解释的开源中间表述层 协

开源 iOS 项目分类索引大全

mattt大神的发布程序:https://github.com/nomad/shenzhen ----------------Mac完整项目----------电台:https://github.com/myoula/sostart ----------------iOS完整项目----------------1,豆瓣相册 https://github.com/TonnyTao/DoubanAlbum2,voa在线英语 https://github.com/cubewang/NewsReader

值得关注的11家容器初创公司

尽管容器技术已经问世超过10年,容器市场自Docker公司成立之后的3年期间迈向了腾飞期,对初创公司来说容器市场已经成熟. 该技术的前提是在准备好的容器上部署代码,代码可以在环境和云中运行的分布式应用程序之间快速迁移.这种方式能够加速测试进程,并且能够构建大型可伸缩的云计算应用程序. 容器的驱动力变得越来越大的趋势愈加明显,对Docker公司来说这是一个好消息,Docker公司提供同名的开源容器平台,也是一个很多容器管理和编排的初创公司竞争的立足点. 容器初创公司有很多,下面我们梳理了几个值得关

最新C#开源资源项目

原文 http://www.cnblogs.com/jirigala/archive/2013/06/04/3116397.html 一.AOP框架        Encase 是C#编写开发的为.NET平台提供的AOP框架.Encase 独特的提供了把方面(aspects)部署到运行时代码,而其它AOP框架依赖配置文件的方式.这种部署方面(aspects)的方法帮助缺少经验的开发人员提高开发效率.        NKalore 是一款编程语言,它扩展了C#允许在.net平台使用AOP.NKal