数据挖掘——数据归约之大型数据集的维度

前言
虽然大型数据集可能得到更佳的挖掘结果,但未必能获得比小型数据集更好的挖掘结果
对于多维数据,一个主要的问题是在所有维度中搜寻所有挖掘方案之前,是否可以确定某方法在已归约数据集的挖掘和发现中国发挥得淋漓尽致。

一、大型数据集的维度
数据的描述以及特征的挑选,归约或转换可能是决定挖掘方案质量的最终更要问题。
预处理集的3个主要维度通常表示为平面文件即列,行和特征的值
因此数据归约的3个基本操作就是删除列,删除行和减少列中值的数量。这些操作的目的是试图删掉不必要的数据来保留原始数据的特征

在准备数据挖掘时候,要执行标准的数据归约操作,需要了解通过这些活动可以得到什么或者失去什么? 则需要全面比较需要分析下面的参数:
1) 计算时间—— 数据归约后的比较简单数据,是否可以减少数据挖掘所消耗的时间
2) 预测/描述精度
3) 数据挖掘模型的描述—— 简单的模型描述通常来自数据归约,这往往意味着模型能得到更好的理解。所导出的模型和其他结果的这种简易性依赖于对模型的描述。
理想情况下,使用维度归约既能减少时间又能提高精度,简化模型的描述。

数据归约推荐的特性描述如下:
可测性—— 应用已归约的数据集合可精确的确定近似结果的质量
可识别性——在应用数据挖掘程序之前,在数据归约算法运行期间,很容易确定近似结果的质量
单一性——算法往往是迭代的,计算结果的质量是时间和输入数据质量的一个非递减的函数
一致性——计算结果的质量与计算时间及输入数据质量有关
收益递减——方案在计算的早期能获得很大的改进,但是随着时间递减
可中断性——算法可以随时停止,并给出答案
优先权——算法可以暂停并以最小的开销重新开始

时间: 2024-08-24 10:02:39

数据挖掘——数据归约之大型数据集的维度的相关文章

跟我一起数据挖掘(14)——数据整理与数据归约

在我们需要整理的数据中,很多都是经过不同时间由于各种原因生成的数据,有的是可以追溯到源头的,有的是很难追溯的. 通常我们会将所有的数据通过各种方式将数据字典收集到一起,然后进行相应的分析. 下面介绍一下使用powerdesigener进行数据整理: 1.在Windows的ODBC数据源中陪着你的数据源,在"系统DNS"中配置你的数据源,配置细节大家都应该非常熟悉不再讲解.如图: (这里也可以使用jdbc,看具体的连接方式了). s 2.在PowerDesigner中,新建一个pdm,选

谷歌更新BigQuery,大型数据集被应用

据Gigaom报道,谷歌日前对BigQuery进行了更新,加入新的聚合功能.BigQuery是一个让用户使用类似SQL的查询来分析TB大小的数据集的云服务.它基于谷歌的Dremel查询系统,可以在其所处的位置(即Google File System或BigTable)上分析数据,不仅如此,还可在谷歌内部使用,分析各种不同的数据集.谷歌声称在BigQuery运行交互式查询速度,对实时性和复杂性的要求完全是MapReduce(上一代处理大型数据集的工具)所无法匹及的.当然,对于批处理,BigQuer

SSAS系列——【03】多维数据(多维数据集对象)

原文:SSAS系列--[03]多维数据(多维数据集对象) 1.什么是Cube?      简单 Cube 对象由基本信息.维度和度量值组组成. 基本信息包括多维数据集的名称.多维数据集的默认度量值.数据源和存储模式等.维度是多维数据集中使用的实际维度组.所有维度都必须先在数据库的维度集合中定义,然后才能在多维数据集中引用.度量值组是多维数据集中的度量值集.度量值组是具有常见数据源视图和维度集的度量值的集合.度量值组是度量值的处理单元:可先对度量值组进行单独处理,然后再浏览.这个概念MSND解释的

利用大数据发展业务的五个维度

对于大数据的前景,有53%的互联网专家和观察员相信,它将给社会的各个方面都带来积极的影响.大数据可以增加社会透明度.可以更好地分析系统性能等等,因此它在未来价值巨大. 除了以上优点,大数据还能创造新的商业模式.产品和服务.让我们来看看大数据的这些优点会给公司带来怎样的好处.以下是当今公司利用大数据发展业务的方法: 了解客户 市场界的新规则是:市场人员可以影响公众对品牌的看法,但不能完全控制公众的交流内容.除了提供优秀的客户体验并精简市场推广活动,公司还需要靠大数据的支持来提供定制化的私人服务.

数据挖掘 | 数据理解和预处理

大家好,我是灰灰.上次和大家聊了聊对数据挖掘的理解以及数据挖掘工作的基本框架(戳这里),从这次开始,咱们脚踏实地,具体说一说如何一步步进行数据挖掘工作,这次我们的主题是"数据理解与预处理". 小编遇到过很多人(咳咳,请不要对号入座),拿到数据后不管三七二十一,先丢到模型中去跑,管它具体什么样呢,反正"大数据"嘛,总能整出点东西来.但就像上次说过的,"大数据"很有可能带来"大错误"!所以在数据挖掘工作开始前,认真的理解数据.检查

《R语言数据挖掘》——2.4 序列数据集挖掘

本节书摘来自华章出版社<R语言数据挖掘>一书中的第2章,第2.4节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 2.4 序列数据集挖掘 序列数据集挖掘的一个重要任务是序列模式挖掘.A-Priori-life算法被用来进行序列模式挖掘,这里使用的A-Priori-life算法,它是采用广度优先策略.然而,FP-growth算法,采用深度优先策略.出于不同的原因,算法有时还需要综

大数据:法学研究的重要维度

法治作为维护人类社会文明之治的重要方式,法学研究理所应当在人类社会突兀的大数据变革中充分地考量和衡平社会状态的大数据维度.大数据依托于信息社会的信息采集,通过海量的数据分析,对每一个被采集对象的行为进行合理的预测.在法学研究领域,无论是以法律为分析基础的教义法学还是以社会为分析基础的社会法学,其之间的争论完全可以通过大数据的工具实证分析弥补其缺陷. 随着信息时代下信息革命的演进,人类社会从数据时代迈入了大数据时代,作为社会治理术的法学需要进行必要的调整,以适应日新月异的大数据化语境下的社会权利与

数据-spark分类如何计算出各维度的权重

问题描述 spark分类如何计算出各维度的权重 通过GeneralizedLinearModel这个类获得的weights和各个维度的权重有关系吗 如果有的话为什么四个维度的数据分两类,得到的weights只有4个值,不是应该有8个值吗 还是我理解错了..CSDN的大神在哪里

把sql数据和access数据整合成一个数据集

access|数据 有时候我们要取得的一部分数据在sql的数据库中,而另一部分数据在access数据库中,但是有时候却需要把这两个数据库中的数据关联起来进行查询,把他们整合在一个数据集合里无疑是一个很好的方法,按照下面这段操作,你就可以在只有sql连接数据库语句的情况下进行sql数据和access数据的联合查询     首先你要用有数据库管理者权限的账号执行下面的脚本01_AddLinkServer.sql,01_AddLinkServer.sql的内容如下:     use master EX