使用UIMA和DB2 Intelligent Miner进行文本挖掘

从非结构化信息中获得更多的价值。研究一个简单的文本挖掘应用程序如何使用 UIMA SDK 构建的文本分析引擎在文档中寻找人名。然后，另一个 UIMA 组件将结果写入 DB2 数据库中的表。然后利用这些数据，使用 DB2 Intelligent Miner 寻找在文档中经常同时提到的人之间的强关联。

简介

人们越来越希望使用信息技术从组织中的非结构化信息中获得更大的价值。IBM 最近引入了新的 Unstructured Information Management Architecture（UIMA）框架（参见参考资料），这个框架简化了分析非结构化媒体对象（比如文档）的系统的开发和部署，可以用来提供语义搜索和文本挖掘等功能。文本挖掘就是用于从文本中提取信息的数据挖掘技术。接下来，详细描述一个非常简单的文本挖掘应用程序。

概述

本文中描述的文本挖掘应用程序称为 Preston，它对文档进行分析，寻找提到的人名，并使用文本挖掘寻找常常同时提到的人。尽管这种技术只是众多有用的文本挖掘技术之一，但是它演示了这类应用程序的主要特性，并为介绍 UIMA 的使用提供了一个具体示例。它还演示了如何组合结构化数据库和文本挖掘。本文面对的读者是希望了解如何使用新的 UIMA 技术将非结构化和结构化信息联系在一起的人。

图 1 给出了 Preston 的概况。这个程序对存储为 DB2 数据库表中的文本字段的文档进行分析。UIMA 框架中的组件从数据库读取并分析文档，寻找以某种格式提到的名称，然后将结果写到另一个数据库 Extracted Information Database（EIDB）中。这些组件是使用 UIMA SDK 中的工具开发和部署的，UIMA SDK 可以从 developerWorks 获得（参见参考资料）。对 EIDB 中的信息要进行分析后处理，以便准备进行文本挖掘，这是使用 DB2 Intelligent Miner 完成的。整个应用程序可以很容易地在笔记本计算机上运行。

图 1. 本文中描述的 Preston 文本挖掘应用程序的概况

在本文中作为示例使用的文档是来自 Internet Movie Database（IMDB）的演员和其他人员的传记信息（参见参考资料）。为了进行说明，我使用 IMDB 内容的子集构建了一个 DB2 结构化数据库，将这些传记信息作为文本字段保存在数据库中。

时间： 2025-01-19 04:34:03

使用UIMA和DB2 Intelligent Miner进行文本挖掘

使用UIMA和DB2 Intelligent Miner进行文本挖掘的相关文章

DB2 Warehouse Enterprise Edition V9.5的安装与配置，第1部分

数据科学工具包（万余字介绍几百种工具，经典收藏版！）

数据科学家和大数据技术人员工具包

InfoSphere Warehouse 10.1的安装、规划和应用

灵活有效的数据仓库解决方案:第1部分：客户互动和项目计划

《数据挖掘：实用案例分析》——3.3 常用的建模工具

安装、规划及应用InfoSphere Warehouse 10.1分区数据库环境

IBM软件集团及五大软件品牌

数据挖掘入门必看10个问题