最牛逼的开源机器学习框架,你知道几个

文章讲的是最牛逼的开源机器学习框架,你知道几个,机器学习毫无疑问是当今最热的话题,它已经渗透到生活的方方面面,在移动互联网中混不懂点机器学习都不好意思,说几个能看的到的,经常用邮箱吧,是不是感觉垃圾邮件比N年前变少了,无聊了和siri聊过天不,想坐一下无人驾驶汽车吗,手累了用脸解个锁,智能化产品推荐是不是让你更懒了。看不到的就更多了:信用卡欺诈监测保证你的交易安全,股票交易/量化投资(知道你的高收益理财怎么来的吗?),手势识别(用过海豚浏览器的手势吗),还有医学分析等等,巨头们为了在未来占领先机,前仆后继的开源他们的机器学习框架,加速了人类进入智能时代的步伐(说什么,机器人?)

  Facebook:用于Torch的模块库fbcunn (2015-01-17 开源)

  fbcunn可以替代Torch的默认模块,它们构建在Nvidia的cuFFT库(一个基于CUDA的库,用于深度神经网络)之上,可以在更短的时间内训练更大规模的神经网络模型,它对NVIDIA的GPU进行了优化。一部分可以用来训练大型计算机视觉系统。部分模块也可以用来训练处理不同类型数据的模型。既可以进行文本识别、图像识别,也能用于语言模型的训练。部分模块将大型卷积神经网络模型的训练速度提升了23.5倍。

  fbcunn基于Fast Training of Convolutional Networks through FFTs这篇论文中的想法构建了这些模块,FAIR(Facebook人工智能实验室)的主任Yann LeCun是论文的合著者之一。与cuDNN相比,在卷积核较小的情况下(3x3),fbcunn的速度提升可达1.84倍;而在卷积核较大的情况下(5x5),速度提升可达23.5倍。

  Torch和fbcunn的最早的用途之一:图片分类,它分类过ImageNet的120万张图片,可以参考这个地址:https://github.com/soumith/imagenet-multiGPU.torch

  参考:

http://torch.ch
https://github.com/torch/
https://github.com/facebook/fbcunn
https://research.facebook.com/blog/879898285375829/fair-open-sources-deep-learning-modules-for-torch/

  微软:DMTK(2015-11-16 开源)

  DMTK由参数服务器和客户端SDK两部分构成。参数服务器支持存储混合数据结构模型、接受并聚合工作节点服务器的数据模型更新、控制模型同步逻辑;客户端SDK负责维护节点模型缓存(与全局模型服务器同步)、本地训练和模型通讯之间的流水线控制以及片状调度大模型训练。它包含DMTK框架、LightLDA和分布式词向量(Word Embedding)三个组件。

  DMTK采用了传统的客户端/服务器架构,有多个服务器实例运行在多台机器上负责维护全局模型参数,而训练例程(routines)则使用客户端API访问并更新这些参数。为了适应不同的集群环境,DMTK框架支持两种进程间的通信机制:MPI和ZMQ。应用程序端不需要修改任何代码就能够在这两种方式之间切换。DMTK支持Windows和Linux两种操作系统

  DMTK则是使用C++编写的,提供了一个客户端API和SDK。 DMTK的官网 对DMTK框架、LightLDA、分布式词向量的应用场景、下载、安装、配置、运行以及性能等方面都做了详尽的介绍(见参考部分)。

  DMTK主要用于自然语言处理方面,比如:文本分类与聚类、话题识别以及情感分析等

  参考:

http://www.dmtk.io
https://github.com/Microsoft/DMTK

  Google:TensorFlow(2015-11-10 开源)

  TensorFlow 是一个用来编写和执行机器学习算法的工具。计算在数据流图中完成,图中的节点进行数学运算,边界是在各个节点中交换的张量(Tensors--多维数组)。TensorFlow负责在不同的设备、内核以及线程上异步地执行代码,目前支持CNN、RNN和LSTM等图像、语音和自然语言处理(NLP)领域最流行的深度神经网络模型。

  Google已将TensorFlow用于GMail(SmartReply)、搜索(RankBrain)、图片(生成图像分类模型--Inception Image Classification Model)、翻译器(字符识别)等产品。

  TensorFlow能够在台式机、服务器或者移动设备的CPU和GPU上运行,也可以使用Docker容器部署到云环境中。在处理图像识别、语音识别和语言翻译等任务时,TensorFlow依赖于配备图像处理单元(GPU)的机器和被用于渲染游戏图像的芯片,它对这些芯片依赖度比想象中的高。当前开源的版本能够运行在单机上,暂不支持集群。操作系统方面,TensorFlow能够运行在Linux和MacOS上。

  TensorFlow的核心是使用C++编写的,有完整的Python API和C++接口,同时还有一个基于C的客户端API。

  参考:

https://www.tensorflow.org
https://github.com/tensorflow/tensorflow

  IBM:SystemML (2015-06 开源)

  SystemML是灵活的,可伸缩机器学习(ML) 语言,使用Java编写。可实现 可定制算法(述性分析、分类、聚类、回归、矩阵分解及生存分析等), 多个执行模式(单独运行、Hadoop 和 Spark ), 自动优化。它由 IBM 的 Almaden 实验室花了近 10年开发而成的机器学习技术。

  SystemML语言,声明式机器学习 (DML)。SystemML 包含线性代数原语,统计功能和 ML 指定结构,可以更容易也更原生的表达 ML 算法。算法通过 R 类型或者 Python 类型的语法进行表达。DML 通过提供灵活的定制分析表达和独立于底层输入格式和物理数据表示的数据显著提升数据科学的生产力。

  SystemML 运行环境支持 Windows、Linux 及 MacOS,可支持单机和分布式部署。单机部署显然有利于本地开发的工作,而分布式部署则可以真正发挥机器学习的威力,支持的框架包括 Hadoop 和 Spark

  众所周知的IBM AIWaston融入了不少SystemML技术(不了解的同学可以看下《Jeopardy!》节目,来领教到沃森的威力)

  参考:

http://systemml.apache.org
https://github.com/apache/incubator-systemml

  三星:VELES

  VELES 是分布式深度学习应用系统,号称:用户只需要提供参数,剩下的我来搞,VELES使用 Python 编写,使用OpenCL 或者 CUDA,利用基于Flow 的编程方式。

  参考:

https://velesnet.ml
https://github.com/Samsung/veles

  百度:期待ING。。。

  巨头之所以开源自己耗时多年打造的机器学习框架,是希望能够加速在人工智能方面的部署,在人工智能日益重要的未来抢占更多的主导权。而对于机器人创业公司来说,当这么多巨头将机器学习平台开源后,还有什么理由做不好机器人。

作者:崔月

来源:IT168

原文链接:最牛逼的开源机器学习框架,你知道几个

时间: 2024-12-28 12:24:49

最牛逼的开源机器学习框架,你知道几个的相关文章

Python粉都应该知道的开源机器学习框架:Scikit-learn入门指南

对Python语言有所了解的科研人员可能都知道SciPy--一个开源的基于Python的科学计算工具包.基于SciPy,目前开发者们针对不同的应用领域已经发展出了为数众多的分支版本,它们被统一称为Scikits,即SciPy工具包的意思.而在这些分支版本中,最有名,也是专门面向机器学习的一个就是Scikit-learn. Scikit-learn项目最早由数据科学家 David Cournapeau 在 2007 年发起,需要NumPy和SciPy等其他包的支持,是Python语言中专门针对机器

28款GitHub最流行的开源机器学习项目(二):TensorFlow排榜首

推荐:28款GitHub最流行的开源机器学习项目(一):TensorFlow排榜首 15. XGBoost XGBoot是设计为高效.灵活.可移植的优化分布式梯度 Boosting库.它实现了 Gradient Boosting 框架下的机器学习算法.XGBoost通过提供并行树Boosting(也被称为GBDT.GBM),以一种快速且准确的方式解决了许多数据科学问题.相同的代码可以运行在大型分布式环境如Hadoop.SGE.MP上.它类似于梯度上升框架,但是更加高效.它兼具线性模型求解器和树学

13个最流行机器学习框架 帮你解决网络安全机器学习的困难问题

在过去的一年中, 机器学习 发展得热火朝天,已成为主流.机器学习的"空降"并非仅仅由廉价的云环境以及 日益强大的GPU硬件驱动 ,同时也受到了开源框架的蓬勃发展的影响.这些开源框架用于提取机器学习中最困难部分,使机器学习可供广泛开发者使用. 用机器学习解决网络安全问题 开源机器学习框架能助力 < 你的机器学习到底解决了什么? >一文中指出 没有什么机器学习厂商,只有应用机器学习解决特定问题的厂商,因为它本身无法独立解决任何问题,只是解决特定问题的手段,至少应该用于事件响应.

程序员们,那些年吹过的牛逼都实现了吗?

有一部分程序员中的老司机,他们善于找各种借口,少干活,少背锅,多拿钱.但是,更多的程序员坦诚.直白.意气用事. 那些年吹过的牛逼都实现了吗?还是随风而去? 这个功能简单,一天就能搞完 程序员拿到一个新功能,心里暗暗发笑,这剧情我见过啊.于是脱口而出,这功能简单,一天就能做完,明天上线肯定没问题. 结果,眼看着到自己设定的截止日期了,还有一部分代码没有写完,怎么办? 很简单啊,又不是生死状,又不要命.解决办法很简单,加班--- 程序员,那些年吹过的牛逼,最后都自己加班了. 这段代码肯定没bug,我

28款GitHub最流行的开源机器学习项目(一):TensorFlow排榜首

1. TensorFlow TensorFlow 是谷歌发布的第二代机器学习系统.据谷歌宣称,在部分基准测试中,TensorFlow的处理速度比第一代的DistBelief加快了2倍之多. 具体的讲,TensorFlow是一个利用数据流图(Data Flow Graphs)进行数值计算的开源软件库:图中的节点( Nodes)代表数学运算操作,同时图中的边(Edges)表示节点之间相互流通的多维数组,即张量(Tensors).这种灵活的架构可以让使用者在多样化的将计算部署在台式机.服务器或者移动设

Docker获9500万美元D轮融资,并牛逼地说B轮的钱还没花完

本文讲的是Docker获9500万美元D轮融资,并牛逼地说B轮的钱还没花完,[编者的话]2015年4月14日,Docker完成9500万美元的 D 轮融资.此前,该公司已完成三轮融资,包括1500万美元的B轮融资及4000万美元的C轮融资.同时Docker还表示,他们B轮的钱还没花完.好吧,受不了了.... 在过去的两年内掀起了容器热潮的创业公司--Docker,今天宣布,它完成了一笔由Insight Venture Partners领投的9500万美元的 D 轮融资.在这一轮新的投资者包括Co

BAT解密:互联网技术发展之路(3)- 牛逼公司的技术架构都是这个范

大部分人对于BAT的技术有一种莫名的崇拜感,觉得只有非常牛逼和天才才能做出现在的这些系统,但经过前面两篇博文的分析,我们可以看到其实并没有什么神秘的力量和魔力融合在技术里面,而是业务的不断发展推动技术的不断发展,一步一个脚印,持续几年甚至10几年的发展,才能达到当前技术复杂度.先进性.牛逼度. 抛开BAT各自差异很大的业务,站在技术的角度来看,其实BAT的技术架构基本是一样的,再将视角放大,你会发现整个互联网行业的技术发展,最后都是殊途同归. 如果你正处于一个创业公司,或者正在成为另一个BAT的

Netflix的牛逼是如何炼成的?

 Netflix是一家在线影片租赁提供商.公司能够提供Netflix超大数量的DVD,而且能够让顾客快速方便的挑选影片,同时免费递送.Netflix已经连续五次被评为顾客最满意的网站.可以通过PC.TV及iPad.iPhone收看电影.电视节目,可通过Wii,Xbox360,PS3等设备连接TV. Netflix的牛逼在哪里? 可以看几个信息. 使用AWS之前,Netflix使用的是Oracle和IBM的技术来支撑其业务发展的.而现在,Netflix基于AWS构建自己的技术生态. Netflix

开源计算框架 Apache Tez

Apache Tez 详细介绍 Tez 是 Apache 最新的支持 DAG 作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能.Tez并不直接面向最终用户--事实上它允许开发者为最终用户构建性能更快.扩展性更好的应用程序.Hadoop传统上是一个大量数据批处理平台.但是,有很多用例需要近乎实时的查询处理性能.还有一些工作则不太适合MapReduce,例如机器学习.Tez的目的就是帮助Hadoop处理这些用例场景. 文章转载自 开源中国社区[https://w