通过打造其沃森和SPSS预测分析,IBM的云机器学习服务能够满足开发人员、数据科学家和企业组织的相关需求。
早在2011年2月,IBM公司的沃森 AI人工智能系统在美国最受欢迎的智力竞赛节目Jeopardy上,通过人机大战成功打败了两位从Jeopardy节目中脱颖而出的参赛者,从而引起全世界的关注。而IBM公司也一直在致力于运用沃森系统解决更有趣的问题,而不仅仅只是回答一些智力竞赛问答。IBM还将沃森相关功能进行了扩展,以便能够服务于开发人员,数据科学家,甚至普通的商业用户。除了IBM公司的SPSS预测分析软件之外,沃森还形成了IBM公司在机器学习和高级先进分析方面的云服务产品的基础。
IBM公司的沃森系统分为五个部分:机器学习、问题分析、自然语言处理、工程特征、本体分析。通过这五个组成部分,IBM公司已经建立起了一整套的云服务产品组合,您可以借助其来打造您自己的迷您沃森,从而帮助解决您的问题。(请注意,基于现成的答案编写知识库是很简单的:在智力竞赛节目Jeopardy上,95%的问题均可以通过搜索到的维基百科文章的标题来回答。)
与此同时,IBM公司正在通过合作开发,以便将沃森技术应用到企业水平的医疗卫生、地震防御与救灾、教育和基因组学领域。虽然这些方面的努力无疑都是非常有趣的,尤其是从长远方面来看的话,但为了撰写本文,此次对其进行测评审查的目的,我则将会把重点专注于沃森和其他可用于IBM云服务的机器学习(ML)技术方面,包括Bluemix PaaS的使用。
其他的机器学习(ML)高科技都包括哪些?在IBM公司幅员辽阔的帝国的一个遥远的角落,IBM SPSS为SPSS Modeler打包
提供Windows和云服务部署,此外还加上一项预测分析服务,其可以在BlueMix PaaS和周期性批量作业实时运行其模型预测,以更新模型。IBM SPSS Modeler能够与微软Azure机器学习和Databricks兼容,而且IBM沃森服务还能够与微软的牛津项目(Project Oxford)和Cortana分析,以及惠普企业公司推出的Haven OnDemand相兼容。
IBM SPSS Modeler和预测分析
让我们从IBM SPSS Modeler和预测分析开始吧。我下载了SPSS Modeler产品的Windows 30天免费试用版本,并按照说明步骤进行了安装。免费版本在其试用期内有一项个性化的编辑功能,包括:数据访问和导出、自动数据准备、数据信息处理(data wrangling)和ETL、基于机器学习算法和自动化建模、R可扩展性(R extensibility)和Python脚本。其不包括通过IBM SPSS分析服务器进行Hadoop/Spark的大数据访问,也不包括champion/challenger功能、A/B测试、文本和实体分析、社会网络分析。这些功能特点在更昂贵的SKU中均有提供。
在SPSS Modeler中的ML算法能够与您在Azure机器学习和spark.ml找到的相兼容,因为其拥有功能特征的选择和支持的格式的选择。即使是与自动化建模(automodeling)相比较,也毫不逊色,虽然在SPSS Modeler中的关于如何使用的介绍比在其他产品中的更明显。
IBM SPSS Modeler的Windows版本有超过30款的ML模型,包括自动建模。拥有一个点击式界面,而考虑到其复杂性,可以说其很容易使用。
而在SPSS Modeler中所包含的您无法在Azure机器学习中找到的功能特点是Jupyter Notebooks或Databricks的笔记本,其具有一个点击式界面。曾经有一段时间(很久以前),我也曾滔滔不绝地谈论过SPSS使得其统计分析应用程序能够通过添加Windows鼠标和菜单界面而变得易于使用的这一功能是多么强大。现如今,我再也不在乎这一点了。事实上,我现在更喜欢笔记本的方法,主要是因为一个有注解的笔记本(我想第一次看到是在Mathcad的DOS)便于另一位分析师跟踪您所做的工作,并能够检查或扩展您的工作。
总体来说,我认为IBM SPSS Modeler是功能非常强大和易于使用的,具有良好的性能,但其售价是非常昂贵的。其“呼吁定价”标志告诉我,IBM云服务的SPSS Modeler Gold版本和SPSS分析服务器的售价可能更昂贵。
一旦您创建了之后,您将会如何处理您的SPSS model呢,您会做什么呢?将其上传到BlueMix。IBM BlueMix主机预测分析的Web服务,适用于SPSS模型能够揭示API的得分,您可以从您的应用程序调用。IBM还在GitHub上发布了两款示例应用程序;这些都是基于SPSS Modeler提供的样本数据集,他们作为Web服务部署,能够被Node.js或Angular.js应用程序调用。两者看起来比较简单。
在IBM Bluemix上运行的该预测分析服务,可以采用SPSS模型,并将其部署为Web服务,将为您的应用程序进行预测评分。
除了Web服务,预测分析支持批处理作业,以再培训和额外数据模型的重新评估。或者,一个批处理作业可以通过再培训模式更新已部署的模型;这解决了当数据发生更改时,预测模型失效的通病问题。目前,预测分析批处理作业只作为API调用公开;我还没有发现用户界面。
Bluemix中的沃森
您会发现,在沃森列表下列出了18项BlueMix服务,如下图所示。每款服务都公开了一个REST API。此外,您也可以下载SDK,以为您的应用程序使用API 。例如,Alchem yAPI有可用于Java、C / C ++、C#、Perl、PHP、Python、Ruby、JavaScript和Android操作系统的SDK和示例。您需要一个API密钥以运行样本,并成功地调用API。一般而言,一旦您在Bluemix中配置了一个沃森服务,您将被链接到可以运行的在线样本,相关的文档介绍也将为您呈现。
目前,在IBM Bluemix中提供18项可用的沃森服务,其中有15项来自IBM。
AlchemyAPI提供了一组包括三项服务在内的服务(Alchem yLanguage,Alchem yVision和Alchem yData),使企业组织和开发人员能够建立认知应用程序,以理解文本和图像所处的内容和环境。 AlchemyLanguage处理文本,以便为情绪、情感(测试版)、关键字、实体和高层次的概念评分。AlchemyVision处理图像以识别图像、场景和对象。AlchemyData提供可搜索的新闻和博客内容,丰富了自然语言处理。AlchemyAPI似乎从其他几款沃森服务获得了绘制能力,并合并到一项单一的服务,包括成为网页的组合。
下一步是概念扩展,其能够基于背景环境和对于概念的见解,分析文本和学习类似的单词或短语,并为您提供了基于维基百科主题的一个预先存在的图形概念的文件链接。(还记得我前面在上文中所提到的Jeopardy智力竞赛所涉及的维基百科标题吗?)在文档中的注释介绍说,沃森的概念扩展服务已2016年3月6日从BlueMix目录删除。然而,到了3月18日,其仍然有一个预定义的数据集和域作为一项测试服务,使得我能够配置服务和运行样本
该对话框服务允许您设计应用程序与一名用户使用自然语言和用户配置信息通过对话界面进行交互交互的方式。文档转换服务将一个单一的HTML、PDF,或微软Word文档转换成规范化的HTML、纯文本,或一组的JSON格式的答案单位,可被其他沃森服务利用。
语言翻译包括了几个知识域和语言的配对。在新闻和会话领域,包括了英语和巴西葡萄牙语,法语,现代标准阿拉伯语,或西班牙语的互相翻译。在专利中,包括英语和巴西葡萄牙语,中文,韩语,或西班牙语。翻译服务可以识别以62种不同语言被写入的纯文本。
在您进了一组类别和短语训练之后,自然语言分类服务适用于认知计算技术,并为句子、问题或短语返回最匹配的类别。您可以看到这个功能在Jeopardy智力竞赛游戏中是如何充分发挥作用的。
个性化的见解来自交易和社交媒体数据(至少要包括由一个单一的个体所写的1000个单词)来识别心理特质,其将以树的特点返回一个JSON格式。通过语境分析关系抽取分析句子的成分和检测组件之间的关系(语音和部分功能)。个性化见解的API被记录用于Curl、Node节点和java;API的demo演示分析了奥普拉、Lady Gaga和国王詹姆斯的推文,以及几篇文章。
检索和排名是Apache Solr实现搜索结果的机器学习训练的相关性改进。Solr是建立在Apache Lucene的全文索引基础上的分类感知搜索服务器。
语音到文本处理的服务将人类语音转换为以英语,日语,阿拉伯语(MSA),汉语普通话,葡萄牙语(巴西),西班牙编写的文字。除了文本,服务将返回元数据,包括每个单词或短语的开始/结束时间和可替代的最佳短语。
文本到语音的服务,能够处理文本和自然语言,以生成合成的音频,输出完全适当的说话节奏和语调。语音包括了美式和英式的英语,法语,德语,意大利语,西班牙语,北美西班牙语,巴西葡萄牙语和日语。根据该文件显示,其中三种美国英语的声音之一被用在了Jeopardy智力竞赛游戏中作为沃森的声音,但当我在运行demo演示时,并没有语音。
语气分析仪,目前仍处于测试阶段,能够从文本中识别情感、社会倾向、写作风格。权衡分析使用帕累托过滤技术,以跨多个标准确定最佳的替代方案,然后使用各种分析和视觉方法,以帮助决策者进行探索和权衡,进而从备选方案中确定最佳的替代品,进行取舍。
最后,视觉识别服务,使您能够分析JPEG图像(或视频帧)的外观,来了解其是在一个怎样的场景下发生的。使用预培训的机器学习技术,语义分类识别许多常见的可视化实体,如设置,对象和事件,返回标签和可能性得分。
在Bluemix中的三款非IBM沃森服务还是封闭测试版。
沃森分析
沃森分析使用IBM公司自己的自然语言处理,使机器学习更容易为企业组织的业务分析师和其他非数据科学家方面的职位角色所使用。这是一个很明显使用了IBM的许多服务的Web应用程序,
包括了Bluemix的沃森部分。我尝试使用了免费试用版本,并用它来作为分析其所提供的自行车租赁服务数据集的一个样本。
IBM沃森分析运行在其自己的网站上,而不是在Bluemix上。如上图所示,其可以让您通过五个过程分析数据。重点是使数据科学可访问。
我能设想得到,这种方法对于那些只需要获得机器学习的结果,而无需编程,或者甚至根本对于该方法都没有很好的了解的人们而言,会是相当有用的。然而,我发现,自然语言界面和所有有用的诊断大多都是以我的方式所呈现的。这让我感到惊讶,因为商业智能产品的用户界面,如Tableau和Qlik Sense,就实现了沃森分析试图完成的一个子集,但以我的方式是绝对无法获得的。
沃森为自行车租赁数据集的分析想出了一个决策树模型,设置了48%的预测强度。该工作表还没有将工作日和非工作日的租客分开。
我一直试图在一次单一的产品测评审查中覆盖IBM公司的三款ML产品(或更多产品,这取决于您怎么算)。我承认,这是不容易的。因为我本来希望对自己所测评的每一件产品做泛泛的评估,最终没能实现,但我还是总结出了一些一般性结论。
IBM SPSS Modeler在Windows或在线UI提供了常规ML培训和评分。这固然是非常好的,但其价格昂贵。Bluemix预测分析可以运行SPSS模型作为Web服务和返回预测。也可以运行批处理作业,以更新模型。
沃森服务在Bluemix中为专业的ML应用程序提供云服务和API。其提供了15项IBM沃森服务,可以被掺入到您自己的应用程序。虽然他们都是不同的,他们的功能似乎是不错的,而且价格合理。沃森分析是一款Web应用程序,用于借助机器学习和相关的工具进行数据分析,包括数据的探索。沃森分析尽量做到能够很容易的使用,但这让我感到无所适从,让我想撕掉的UI和代码。我能够想象得到沃森分析对于那些没有受过数据科学训练的商业人士的价值,但我本人并不是特别喜欢。
实际的数据科学家们也许会想跳过沃森分析,偏向于使用SPSS Modeler和在Bluemix中的沃森服务。业务分析师可能会使用沃森分析,但对于他们的探索性的数据分析,可能使用Tableau会更好,然后与数据科学家合作,以开发预测模型。
本文作者马丁海勒是InfoWorld网站的特约编辑和审稿人。以前曾是一名Web和Windows应用程序设计顾问,从1986年到2010年他曾在位于马萨诸塞州安杜佛的办公室开发过数据库,软件和网站。最近,他曾担任过阿尔法软件公司的技术和教育副总裁,以及Tubifi公司的董事长兼首席执行官。
本文转自d1net(转载)