使用UIMA和DB2 Intelligent Miner进行文本挖掘

从非结构化信息中获得更多的价值。研究一个简单的文本挖掘应用程序如何使用 UIMA SDK 构建的文本分析引擎在文档中寻找人名。然后,另一个 UIMA 组件将结果写入 DB2 数据库中的表。然后利用这些数据,使用 DB2 Intelligent Miner 寻找在文档中经常同时提到的人之间的强关联。

简介

人们越来越希望使用信息技术从组织中的非结构化信息中获得更大的价值。IBM 最近引入了新的 Unstructured Information Management Architecture(UIMA)框架(参见 参考资料),这个框架简化了分析非结构化媒体对象(比如文档)的系统的开发和部署,可以用来提供语义搜索和文本挖掘等功能。文本挖掘就是用于从文本中提取信息的数据挖掘技术。接下来,详细描述一个非常简单的文本挖掘应用程序。

概述

本文中描述的文本挖掘应用程序称为 Preston,它对文档进行分析,寻找提到的人名,并使用文本挖掘寻找常常同时提到的人。尽管这种技术只是众多有用的文本挖掘技术之一,但是它演示了这类应用程序的主要特性,并为介绍 UIMA 的使用提供了一个具体示例。它还演示了如何组合结构化数据库和文本挖掘。本文面对的读者是希望了解如何使用新的 UIMA 技术将非结构化和结构化信息联系在一起的人。

图 1 给出了 Preston 的概况。这个程序对存储为 DB2 数据库表中的文本字段的文档进行分析。UIMA 框架中的组件从数据库读取并分析文档,寻找以某种格式提到的名称,然后将结果写到另一个数据库 Extracted Information Database(EIDB) 中。这些组件是使用 UIMA SDK 中的工具开发和部署的,UIMA SDK 可以从 developerWorks 获得(参见 参考资料)。对 EIDB 中的信息要进行分析后处理,以便准备进行文本挖掘,这是使用 DB2 Intelligent Miner 完成的。整个应用程序可以很容易地在笔记本计算机上运行。

图 1. 本文中描述的 Preston 文本挖掘应用程序的概况

在本文中作为示例使用的文档是来自 Internet Movie Database(IMDB)的演员和其他人员的传记信息(参见 参考资料)。为了进行说明,我使用 IMDB 内容的子集构建了一个 DB2 结构化数据库,将这些传记信息作为文本字段保存在数据库中。

时间: 2025-01-19 04:34:03

使用UIMA和DB2 Intelligent Miner进行文本挖掘的相关文章

DB2 Warehouse Enterprise Edition V9.5的安装与配置,第1部分

简介 DB2 Warehouse 结合了IBM DB2的强大数据支持以及一组IBM商业智能(Business Intelligence)产品,提供了一个全方位的商业智能平台及其应用工具,企业可以通过这些组件建立和部署下一代数据仓库的分析解决方案. 文章将详细描述DB2 Warehouse Enterprise Edition Version 9.5的图解安装过程以及相关组件的简要介绍,并对安装过程可能遇到的常见问题进行解答. DB2 Warehouse 概述 DB2 Warehouse V9.5

数据科学工具包(万余字介绍几百种工具,经典收藏版!)

本文简介:数据科学家的常用工具与基本思路,数据分析师和数据科学家使用的工具综合概述,包括开源的技术平台相关工具.挖掘分析处理工具.其它常见工具等几百种,几十个大类,部分网址.为数据科学教育和知识分享,提高数据科学人员素质. 数据科学融合了多门学科并且建立在这些学科的理论和技术之上,包括数学.概率模型.统计学.机器学习.数据仓库.可视化等.在实际应用中,数据科学包括数据的收集.清洗.分析.可视化以及数据应用整个迭代过程,最终帮助组织制定正确的发展决策数据科学的从业者称为数据科学家.数据科学家有其独

数据科学家和大数据技术人员工具包

数据科学家的常用工具与基本思路,数据分析师和数据科学家使用的工具综合概述,包括开源的技术平台相关工具.挖掘分析处理工具.其它常见工具等几百种,几十个大类,部分网址.为数据科学教育和知识分享,提高数据科学人员素质. 数据科学融合了多门学科并且建立在这些学科的理论和技术之上,包括数学.概率模型.统计学.机器学习.数据仓库.可视化等.在实际应用中,数据科学包括数据的收集.清洗.分析.可视化以及数据应用整个迭代过程,最终帮助组织制定正确的发展决策数据科学的从业者称为数据科学家.数据科学家有其独特的基本思

InfoSphere Warehouse 10.1的安装、规划和应用

安装 InfoSphere Warehouse 10.1组件概述 InfoSphere Warehouse 是一个产品套件,它将 DB2 的优势与 IBM 的数据仓库基础架构相结合.可以使用 InfoSphere Warehouse 来构建完整的企业级数据仓库解决方案.InfoSphere Warehouse 中提供了以下组件: 表 1. InfoSphere Warehouse 组件 InfoSphere Warehouse 组件 InfoSphere Warehouse 组件概述 InfoS

灵活有效的数据仓库解决方案:第1部分:客户互动和项目计划

简介 商业智能(Business Intelligence)已经进化为包括越来越多的数据分析技术.无论采用哪种数据分析方法,数据仓库都仍然是利用信息资产的重要基础.本系列文章将帮助您使用 IBM DB2 Data Warehouse Edition(DB2 DWE)交付某种数据仓库基础设施,该基础设施对于随需应变的商业智能至关重要.本文将关注数据仓库计划,其中包括客户互动过程.业务发现.项目建议以及项目计划. 目标读者 本文是为需要知道如何交付数据仓库解决方案的 IT 专业人士撰写的.本文假定您

《数据挖掘:实用案例分析》——3.3 常用的建模工具

3.3 常用的建模工具 数据挖掘是一个过程,只有将数据挖掘工具提供的技术和实施经验与企业的业务逻辑和需求紧密结合,并在实施的过程中不断地磨合才能取得成功.因此我们在选择数据挖掘工具的时候,要全面考虑多方面的因素,主要包括以下几点: 下面简单介绍几种常用的数据挖掘建模工具: 1.Enterprise Miner Enterprise Miner(简称EM)是SAS推出的一个集成的数据挖掘系统,允许使用和比较不同的技术,同时还集成了复杂的数据库管理软件.它的运行方式是通过在一个工作空间(Worksp

安装、规划及应用InfoSphere Warehouse 10.1分区数据库环境

本文通过详解介绍在 Red Hat Enterprise Linux 双机的环境中安装.规划以及应用 InfoSphere Warehouse 10.1 分区数据库环境,使读者快速地掌握相关的技能并能应用到项目实施中. InfoSphere Warehouse 是一个产品套件,它将 DB2 的优势与 IBM 的http://www.aliyun.com/zixun/aggregation/8302.html">数据仓库基础架构相结合. 可以使用 InfoSphere Warehouse 来

IBM软件集团及五大软件品牌

从1995年成立到今年,IBM软件集团已经走过了10个年头.从1995年起步至今,IBM软件集团已经成为全球第二大软件实体和全球领先的中间件供应商.2004年,其收入高达151亿美元,比2003年的增长8亿美元.目前,IBM软件占IBM公司总利润超过三分之一. 回顾过去的十年,IBM软件走过了一条不平凡的道路:其研发能力始终是业界上最具创新性的,IBM拥有全球最多的软件专利,2004年,IBM获得的软件专利数量是Microsoft.Oracle和BEA总和的两倍.IBM软件集团在全球设有40个试

数据挖掘入门必看10个问题

NO.1 Data Mining 和统计分析有什么不同? 硬要去区分Data Mining和Statistics的差异其实是没有太大意义的.一般将之定义为Data Mining技术的CART.CHAID或模糊计算等等理论方法,也都是由统计学者根据统计理论所发展衍生,换另一个角度看,Data Mining有相当大的比重是由高等统计学中的多变量分析所支撑.但是为什么Data Mining的出现会引发各领域的广泛注意呢?主要原因在相较于传统统计分析而言,Data Mining有下列几项特性: 1.处理