数据库解析:数据离散化和概念分层

通过将属性值域划分为区间,数据离散化技术可以用来减少给定连续属性值的个数。区间的标记可以替代实际的数据值。用少数区间标记替换连续属性的数值,从而减少和简化了 原来的数据。这导致挖掘结果的简洁、易于使用的、知识层面的表示。离散化技术可以根据如何进行离散化加以分类,如根据是否使用类信息或根据进行方向(即自顶向下或自底向上)分类。如果离散化过程使用类信息,则称它为监督离散化(supervised iscretization);否则是非监督的(unsupervised)。如果首先找出一点或几个点(称作分裂点或割点)来划分整个属性区间,然后在结果区间上递归地重复这一过程,则称它为自顶向下离散化或分裂。自底向上离散化或合并正好相反,首先将所有的连续值看作可能的分裂点,通过合并相邻域的值形成区间,然后递归地应用这一过程于结果区间。可以对一个属性递归地进行离散化,产生属性值的分层或多分辨率划分,称作概念分层。概念分层对于多个抽象层的挖掘是有用的。

对于给定的数值属性,概念分层定义了该属性的一个离散化。通过收集较高层的概念(如青年、中年或老年)并用它们替换较低层的概念(如年龄的数值),概念分层可以用来归约数据。通过这种数据泛化,尽管细节丢失了,但是泛化后的数据更有意义、更容易解释。

这有助于通常需要的多种挖掘任务的数据挖掘结果的一致表示。此外,与对大型未泛化的数据集挖掘相比,对归约的数据进行挖掘所需的I/O操作更少,并且更有效。正因为如此,离散化技术和概念分层作为预处理步骤,在数据挖掘之前而不是在挖掘过程进行。属性price的概念分层例子在图2-22给出。对于同一个属性可以定义多个概念分层,以适合不同用户的需要。

属性price的一个概念分层,其中区间($X.$Y]表示从$X(不包括)到$Y(包括)的区间对于用户或领域专家,人工地定义概念分层可能是一项令人乏味、耗时的任务。幸而,可以使用一些离散化方法来自动地产生或动态地提炼数值属性的概念分层。此外,许多分类属性的分层结构蕴涵在数据库模式中,可以在模式定义级自动地定义。

时间: 2024-08-29 16:53:25

数据库解析:数据离散化和概念分层的相关文章

《DBA修炼之道:数据库管理员的第一本书》——3.1节数据建模的概念

3.1 数据建模的概念 下面用一则民间流行的盲人摸象的故事来说明数据建模的目的: 有四个盲人在他们的旅行中碰巧遇到一头大象,他们以前从没遇到过大象,但还是很好奇.因此,每个盲人都试图通过触摸来了解大象是什么样子.第一个盲人摸着大象的鼻子惊呼道:"天啊!原来大象像条蛇啊,又长又光滑."第二个盲人伸手摸到了大象的侧面,他申辩说:"不对,大象更像一堵墙,平整又厚实."第三个盲人有些困惑了,他伸出手去摸大象却摸到了大象的长牙,他说道:"不对,你们都错了,大象更像是

足彩基础知识入门(4)赛事数据库与预测平台基础概念介绍(一)

在足球赛事数据库以及统计分析预测平台中,有很多概念,如果不搞懂,很难进行下一步的工作.所以为了配合团队人员的学习和任务进行,特意编写这篇文章.如果有其他问题和不懂的,请留言,将根据情况进行更新. 本文原文地址:足彩基础知识入门(4)赛事数据库与预测平台基础概念介绍(一) 1.指数1/2/3.... 我在 足彩基础知识入门(3)足彩赔率的本质 一文中介绍了赔率的概念,那么指数的概念和赔率以及结果是相关的.我们举个例子: 如上图的比赛,前面是竞彩非让球的赔率:1.74-3.25-4.15,也就是说

MySQL数据库InnoDB数据恢复工具的使用小结详解_Mysql

本文从实际使用经验出发,介绍一款开源的MySQL数据库InnoDB数据恢复工具:innodb-tools,它通过从原始数据文件中提取表的行记录,实现从丢失的或者被毁坏的MySQL表中恢复数据.例如,当你不小心执行DROP TABLE.TRUNCATE TABLE或者DROP DATABASE之后,可以通过以下方式恢复数据.以下内容大部分参考自:Percona Data Recovery Tool for InnoDB,文档是英文的,而且写的比较晦涩,这里是个人的实战经验总结,供大家参考学习.在介

mysql数据库中有数据表但php无法引用

问题描述 mysql数据库中有数据表但php无法引用 <?php //1.连接数据库 try{ $pdo=new PDO("mysql:127.0.0.1;dbname=myapp","root",""); }catch(PDOException $e){ die("数据连接失败".$e->getMessage()); } //2.执行SQL查询,并解析与遍历 $sql="SELECT * FROM us

《大数据管理概论》一2.2 大数据融合的概念

本节书摘来自华章出版社<大数据管理概论>一书中的第2章,第2.2节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 2.2 大数据融合的概念 众所周知,大数据价值链是一个阶梯式循环过程:"离散数据→集成化数据→知识理解→普适机理凝练→解释客观现象.回归自然",每一个链条是对大数据的一次价值提升.为了实现这一价值,我们提出了大数据融合的概念,它是获取高品质知识.最大程度发挥大数据价值的一种手段,它的重要性毋庸置疑.但是,大数据的特征已经发生变化

《大数据管理概论》一第1章概  述1.1 大数据的基本概念

本节书摘来自华章出版社<大数据管理概论>一书中的第1章,第1.1节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 |第1章 概 述 1.1 大数据的基本概念 已故的图灵奖得主Jim Gray在其<事务处理>一书中提到:6000年以前,苏美尔人(Sumerians)就使用了数据记录的方法,已知最早的数据是写在土块上,上面记录着皇家税收.土地.谷物.牲畜.奴隶和黄金等情况.随着社会的进步和生产力的提高,类似土块的处理系统演变了数千年,经历了殷墟甲骨文.

h2 删数据 sql优化-h2数据库删除数据速度问题

问题描述 h2数据库删除数据速度问题 想删除h2数据库中某个表部分数据,但该表中有八千万左右数据,如何删除符合要求的一小部分数据呢?比如删除name以abc开头的数据,因为h2数据库我是通过web打开查看的,普通的Sql语句要执行很长很长时间,而且经常报内存不足,各位大神有没有什么优化的方法???求指点呀 解决方案 http://www.lc365.net/blog/b/32424/ 解决方案二: 因为没分了,不过谢谢能回答,对我其他的一些地方有帮助

数据库的数据查询中使用JOIN及子查询有什么缺陷,该如何改善

问题描述 数据库的数据查询中使用JOIN及子查询有什么缺陷,该如何改善 数据库的数据查询中使用JOIN及子查询有什么缺陷,该如何改善 解决方案 泛泛说不好说,关键看你的查询算法.特别是子查询,用的不好在时间和空间上开销很大.这个和编程中的算法类似,你需要对查询本身和算法本身要有理解,这个改善不是查询本身的改善.而是寻求更高效的算法. 解决方案二: http://segmentfault.com/q/1010000000134455 最重要的还是设计好数据库schema等,来减少数据的混合查询 解

eclipse-谁知道用JSP展现数据库里面数据导入导出功能怎样写的代码?

问题描述 谁知道用JSP展现数据库里面数据导入导出功能怎样写的代码? 做数据导出老导不出数据,我想知道是不是数据库方法错误,谁知道用JSP展现数据库里面数据导入导出功能怎样写的代码? 解决方案 导入导出EXCEL数据http://yangbobestone.iteye.com/blog/1123458