数据科学中最好的5个机器学习API

机器学习作为大数据的前沿无疑是让人生畏的,因为只有技术极客和数据科学领域的专家才能驾驭机器学习算法和技术,对于大部分企业和组织而言,过去这一直都是一个遥不可及的事情。但是现在这种情况正在发生改变,正如标准的API简化了应用程序的开发一样,机器学习API也降低了这一领域的门槛,让越来越多的人和企业能够借助技术底蕴深厚的公司所提供的API试水机器学习。

机器学习API隐藏了创建和部署机器学习模型的复杂性,让开发者能够专注于数据挖掘和用户体验。同时,将机器学习商业化成云服务也是当今的趋势,IBM、Microsoft、Google、Amazon以及BigML等公司都为业务分析师和开发人员提供了自己的机器学习即服务(MLaaS),最近Khushbu Shah在KDnuggets上发表了一篇文章,介绍了这5个公司的机器学习API。

IBM Watson

IBM Watson Developer Cloud于2013年十一月推出,它提供了一套完整的API,简化了数据准备的流程,让开发者能够更容易地运行预测分析。作为一个认知服务,IBM Watson API允许开发人员利用机器学习技术,如自然语言处理、计算机视觉以和预测功能,来构建更加智能的产品、服务或者应用程序,通过在应用中嵌入IBM Watson,开发者还能够更好地理解用户是如何与应用程序交互的。

IBM Watson是一个包含听、看、说以及理解等感知功能的扩展工具集,它提供的API超过了25个,涵盖了近50种技术,其中最主要的服务包括:

机器翻译——帮助翻译不同语言组合中的文本

消息共振——找出短语或单词在预定人群中的流行度

问答——为主文档来源触发的查询提供直接的答案

用户模型——根据给定的文本预测人们的社会特征

Microsoft Azure机器学习API

Microsoft Azure机器学习是一个用于处理海量数据并构建预测型应用程序的平台,该平台提供的功能有自然语言处理、推荐引擎、模式识别、计算机视觉以及预测建模等,为了迎合数据科学家的喜好,Microsoft Azure机器学习平台还增加了对Python的支持,用户能够直接将Python代码片段发布成API。借助于Microsoft Azure机器学习API,数据科学家能够更容易地构建预测模型并缩短开发周期,其主要特性包括:

支持创建自定义的、可配置的R模块,让数据分析师或者数据科学家能够使用自己的R语言代码来执行训练或预测任务

支持自定义的Python脚本,这些脚本可以使用SciPy、SciKit-Learn、NumPy以及Pandas等数据科学类库

支持PB级的数据训练,支持Spark和Hadoop大数据处理平台

Google预测API

Google预测API是一个云端机器学习和模式匹配工具,它能够从BigQuery和Google云存储上读取数据,能够处理销售机会分析、客户情感分析、客户流失分析、垃圾邮件检测、文档分类、购买率预测、推荐和智能路由等用户场景。使用Google预测API的用户不需要人工智能的知识,只需要有一些基础的编程背景即可。Google预测API支持众多的编程语言,比如 .NET、Go、Google Web Toolkit、JavaScript、Objective C、PHP、Python、Ruby和Apps Script,基本覆盖了主流的编程语言。

Amazon机器学习API

Amazon机器学习API让用户不需要大量的数据专家就能够实现模型构建、数据清洗和统计分析等工作,简化了预测的实现流程。虽然该API有一些UI界面或者算法上的限制,但是却是用户友好和向导驱动的,它为开发者提供了一些可视化工具,让相关API的使用更直观、也更清晰。

Amazon机器学习API支持的用户场景包括:

通过分析信号水平特征对歌曲进行题材分类

通过对智能设备加速传感器捕获的数据以及陀螺仪的信号进行分析识别用户的活动,是上楼、下楼、平躺、坐下还是站立不动

通过分析用户行为预测用户是否能够成为付费用户

分析网站活动记录,发现系统中的假用户、机器人以及垃圾邮件制造者

BigML

BigML是一个对用户友好、对开发者友好的机器学习API,该项目的动机是让预测分析对用户而言更简单也更容易理解。BigML API提供了3种重要的模式:命令行接口、Web接口和RESTful API,其支持的主要功能包括异常检测、聚类分析、决策树的SunBurst可视化以及文本分析等。

借助于BigML,用户能够通过创建一个描述性的模型来理解复杂数据中各个属性和预测属性之间的关系,能够根据过去的样本数据创建预测模型,能够在BigML平台上维护模型并在远程使用。

本文作者:佚名

来源:51CTO

时间: 2024-09-04 14:21:45

数据科学中最好的5个机器学习API的相关文章

《Python数据科学指南》——第1章 Python在数据科学中的应用 1.1 简介

第1章 Python在数据科学中的应用 在这一章里,我们将探讨以下主题. 使用字典对象 使用字典的字典 使用元组 使用集合 写一个列表 从另一个列表创建列表--列表推导 使用迭代器 生成一个迭代器和生成器 使用可迭代对象 将函数作为变量传递 在函数中嵌入函数 将函数作为参数传递 返回一个函数 使用装饰器改变函数行为 使用lambda创造匿名函数 使用映射函数 使用过滤器 使用zip和izip函数 从表格数据使用数组 对列进行预处理 列表排序 采用键排序 使用itertools 1.1 简介 Py

了解人工智能之分类和预测 - 数据科学中的预测,分类和回归分析

在上一篇中,我概括地解释了一些主要的人工智能概念,包括机器学习,神经网络和深度学习.也概述了当前人工智能背后的基本原理,提及了从大量样本中学习的机器学习系统,解释了深度学习系统能够更丰富地展现这些样例.那接下来我们就来说说利用这些人工智能系统我们今天可以做些什么,有哪些用途,以及现在的研究领域与方向. 总的来说,我们可以从两个方面来利用当前的人工智能系统: 完成更出色的数据科学工作 我们长期以来使用传统统计方法或软件工程来处理下面这些数据科学领域的工作.但是在有了机器学习系统以后,我们可以做得更

为何企业无法从数据科学中真正获得价值?

当今企业拥有越来越多的数据,但这些数据并没有完全被转化成可操作的信息.在过去的几年里,我和我的MIT调查小组一直在寻找一个基本问题的答案:如何让企业通过机器学习,将蕴藏于其数据储存内的潜能全部释放出来. 当我们与不同行业的合作伙伴一起设计基于机器学习的解决方案时,我们发现已有的解决方案通常情况下是不适合的,这是为什么呢? 首先,每当我们问到机器学习专家们(专长于预测模型训练和测试的数据科学家们),在工作中最困难的部分,被一次次提及的答案是--"数据杂乱无章".一开始,从字面意思上理解,

数据科学中的非数学特征工程技术

◆ ◆ ◆ 导 读 "应用机器学习像是把你当一个伟大的工程师,而非伟大的机器学习专家." 这是我在一份谷歌内部文件中读到的如何应用机器学习的第一句话.的确如此.以我作为服务器工程师/数据分析师的有限经验,数据(以及如何存储/处理)一直都是所有问题的核心,在整体中举足轻重.去问问任何一位Kaggle的获胜者,他们都会说,最大的收获总是来源于聪明地表示数据,而不是使用某些复杂的算法.即使CRISP数据挖掘处理也使用了不是一个,而是两个阶段,专门用来理解和准备数据. ◆ ◆ ◆ 特征工程 那

数据科学中的“数据智慧”

在大数据时代,学术界和工业界的大量研究都是关于如何以一种可扩展和高效率的方式对数据进行储存.交换和计算(通过统计方法和算法).这些研究非常重要.然而,只有对数据智慧(data wisdom)也给予同等程度的重视,大数据(或者小数据)才能转化为真正有用的知识和可被采纳的信息.换言之,我们要充分认识到,只有拥有足够数量的数据,才有可能对复杂度较高的问题给出较可靠的答案."数据智慧"对于我们从数据中提取有效信息和确保没有误用或夸大原始数据是至关重要的. "数据智慧"一词是

数据科学中“专业化”意味着什么

我作为一个数据科学家的经历跟我在书本和博客上所读到的根本不一样.我曾读到过为数字超级新星公司工作的数据科学家,他们听上去像是英雄,可以写出自动化(近乎有感知能力的)算法并不断地大量获取认知结果.我也读到过像百战天龙那样的数据科学家黑客,他们可以通过将他们周围有的任意原始材料拼凑出数据产品来拯救世界. 我的团队创建的数据产品并没有重要到可以评价大型的企业级基础设施.只是我觉得,投资超高效的自动化以及产品控制是不值得的.另一方面,我们的数据 产品影响了企业中的重要决策,并且我们的努力是可测量,这一点

2017数据科学与机器学习行业现状调查 Python是最受欢迎的语言

今年,Kaggle有史以来第一次对人工智能领域进行了深度调查,旨在全面了解数据科学和机器学习的概况.本次调查收到了 16000 多份答卷,庞大的调查数据为我们提供了有关从业者.业界最新动态以及如何进入该行业的数据支撑.以下报告包括本次调查的几个主要结果,其中包括: 尽管Python很可能是机器学习最常用的编程语言,但统计学家使用最多的是 R 语言. 数据科学家的平均年龄在 30 岁左右,但是这个数字在不同的国家有所不同.例如,印度受访者的平均年龄要比澳大利亚的小 9 岁. 被调查者教育程度最多是

数据科学和机器学习工具和语言最新动态

文章讲的是数据科学和机器学习工具和语言最新动态,第18届年度KDnuggets软件投票又一次受到了分析.数据科学界和软件生产商的热情参与.与去年相似,约有2900人参与了此次投票.最近几年,Python的使用增长率一直比R快,到今年,Python终于以微弱的优势超过了R的使用率 (52.6% Vs 52.1%).然而最大的惊喜应该是深度学习工具的广泛共享和使用.2017年深度学习有32%的使用率,而在2016年只有18%,2015年9%.谷歌Tensorflow迅速成为深度学习平台的领头者,以2

一文读懂机器学习、数据科学、人工智能、深度学习和统计学之间的区别

在这篇文章中,数据科学家与分析师 Vincent Granville 明晰了数据科学家所具有的不同角色,以及数据科学与机器学习.深度学习.人工智能.统计学.物联网.运筹学和应用数学等相关领域的比较和重叠.Granville 介绍说,由于数据科学是一个范围很广的学科,所以他首先介绍了在业务环境中可能会遇到的数据科学家的类型,你甚至可能会发现你自己原来也是某种数据科学家.和其它任何科学学科一样,数据科学也可能会从其它相关学科借用技术.当然,我们也已经开发出了自己的技术库,尤其是让我们可以以自动化的方