本文要为大家介绍的是在IBM的发展策略下,ECM究竟提供了怎么样的产品和技术能力,在用户企业的实践方面又能够提供多少的经验分享。IBM软件集团在这之前的2012年策略发布会上曾经提出过智慧“软”实力的观点,并声称期待这个观点能够通过软件技术为企业实现成长与创新。而作为IBM提出的这个“软”实力的其中一部分重要组成部分,新版的企业内容管理(ECM)产品将在5月31日全球同步上市发售,这些产品分别是ICA(内容分析)、ICC(内容捕获采集)以及ICN(文档、影像、社交内容管理)。
ICA (IBM Content Analytics)——内容分析
非结构化数据的爆炸式增长,使有价值的信息散落在各个“孤岛”。这些非结构化信息包括办公文档、视频影像与音频、HTML网页、电子邮件、文本、报表等等,这些信息通常被放在企业的数据库、文件系统、网站及门户等等IT系统中。来自IBM南加州ECM实验室的开发负责人Susan Chen女士认为,“企业运营中所使用的数据,80%以上是非结构的,它的增长率甚至是结构化数据的两倍。这些数据来自于每天拥有两千亿往来的电子邮件,再加上影像、办公文档、音视频文件等等,可见是海量数据。如果能够有效利用海量数据,我们便可以提早发现问题,提升对客户的服务,降低作业成本,能够发掘新的收益机会。”Susan Chen在5月31日——世界无烟日,IBM ECM用户大会上形象的例举了一个非结构化数据判断吸烟患病风险的例子,她谈到,“我们做了一个医疗界客户的POC(为观点提供证据),我们用ICA分析五千个病人的记录,其中一个项目是找病人抽烟的习惯判断他得心脏病的风险性。从有结构式的数据中,有35%的记录中找到了抽烟指标;在文本数据中从81%的数据找到抽烟指标,并且准确度高了很多。所以如果只对来源数据进行分析可能会错过一些很重要的洞察。” Susan Chen提到的ICA便是IBM ECM解决方案中的“主角”之一,IBM内容分析管理产品,全称IBM Content Analytics。
“企业内容分析的数据对象正在发生变化,从事务性的结构化数据转向交互性的非结构化数据已成趋势。”Susan Chen表示,ICA能够对异结构数据源进行企业级搜索以及文本分析。笔者了解到,ICA的工作原理是通过分析搜寻功能将捕获的数据输入UIMA管道(一个用于分析非结构化内容的组件架构),结合按照UIMA开放标准编写的注释器进行内容分析。生成后的数据会被添加至索引目录,然后用户可以根据ICA的分析结果界面进行有选择的信息发掘和获取结论,以作为准确的业务决策参考。ICA的搜索结果会是怎样的界面呢?如下图所示,这八个例子便是ICA分析结论的代表视图。
ICA搜索和分析功能概览(点击放大)
ICA提供三种系统配置方法满足不同数据的需要。“小数据比如说做POC的时候可以部署在单个工作站;如果是生产系统可以部署一到数个服务站;用大量数据的时候可以利用BigInsights做分析。”Susan Chen表示,“平时的工作中可以支持五千万到一亿的数据文档,ICA的第三版本提供了面向大数据的配置。ICA和BigInsights的集成架构,设计的重点是要把系统中最耗计算资源的部分,也就是文档处理前的准备、内容分析、建索引和全局分析,通过Hadoop、Map Reduce的模式分布在一群廉价的机器上,这群廉价的机器等于就是一个计算云。”
与BigInsights无缝集成的高扩展性(点击放大)
下图是一个亮点,这是ICA能够支持的30多种异构的数据源。根据Susan Chen介绍,这些数据源代表着150多种不同的表格。值得一提的是,这些数据源中除了支持IBM自己的产品之外,Oracle 11g、微软SQl Server、Sybase系列均在其中;包括EMC、CA Technologies等厂商的内容管理产品也可以成为被ICA捕获收集的数据源。这是怎样实现的呢?笔者有机会采访到了IBM软件集团行业解决方案ECM开发部项目总监 William Lobig先生,并获得了一些回答。
ICA支持的30多种异构数据源(点击放大)
ICC (IBM Content Collector)——内容捕获收集
以微软的企业级协同门户SharePoint作为数据源的例子来说,IBM的内容管理解决方案是通过怎样的技术实现了数据源捕获?这便涉及到IBM ECM的另一款产品ICC(内容捕获采集),William Lobig表示,“ECM方案中的ICC产品提供了这样的连接器,以模块化存在于ECM方案中。这样的Connect连接器,可以连接不同的数据源。具体的关于怎样采集和捕获SharePoint中的数据,如果要把它转化到IBM的ECM里面,可以利用一个指针一样的功能,当需要内容库的时候便可以调用SharePoint,这是按需求来做的。这是IBM自己的解决方案,只不过我们使用了微软公开的API。”下图为ICC最新3.0版的一些概括。