数据挖掘笔记 第一章:引言

教科书:数据挖掘:概念与技术(第二版),Jiawei Han和Micheline Kamber 著,机械工业出版社(2007)

 

Lecture 1: Introduction

1)  Why data mining?

Necessity Is the Mother of Invention需要是发明之母

 

2) What is data mining?

Data mining (knowledge discovery from data从大量数据中提取或挖掘知识)

Extraction of interesting (non-trivial, implicit, previously unknown and potentially useful) patterns or knowledge from huge amount of data从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识

Alternative names: Knowledge discovery (mining) in databases (KDD) 数据库中的知识挖掘

 

Steps of a KDD Process

Learning the application domain: relevant prior knowledge and goals of application

Creating a target data set: data selection

Data cleaning and preprocessing: (may take 60% of effort!)

Data reduction and transformation:Find useful features, dimensionality/variable reduction, invariant representation

Choosing functions of data mining: summarization, classification, regression, association, clustering

Choosing the mining algorithm(s)

Data mining: search for patterns of interest

Pattern evaluation and knowledge presentation: visualization, transformation, removing redundant patterns, etc.

Use of discovered knowledge

Architecture: Typical Data Mining System

 

3) On what kind of data?

Traditional database and appllications

    Relational database, data warehouse, transactional database关系数据库,数据仓库,事务数据库

Advanced database and advanced applications

   Object-relational databases对象-关系数据库

   Temporal database, sequence data (incl. biosequences), time-series data时间数据库、序列数据库和时间序列数据库

    Spatial database and spatiotemporal database空间数据库和时间空间数据库

    Text databases Multimedia database文本数据库和多媒体数据库

    Heterogeneous databases and legacy databases异构数据库和遗产数据库

    Data streams and sensor data数据流和传感器数据

    Structure data, graphs, social networks and link databases

    Text databases Multimedia database文本数据库和多媒体数据库

    The World-Wide Web万维网

 

4) Data Mining Functionalities

   Lass/concept description: Characterization and discrimination 类/概念描述: 特性化和区分

   Frequent patterns, association, correlation and causality频繁模式、关联和相关

   Classification and prediction分类和预测 

   Cluster analysis聚类分析

   Outlier analysis离群点分析

   Trend and evolution analysis趋势和演变分析

 

5) Are all the patterns interesting?

 

6) Classification of data mining systems

时间: 2024-10-31 04:15:48

数据挖掘笔记 第一章:引言的相关文章

【PMP】Head First PMP 学习笔记 第一章 引言

第一章 引言 高效的解决项目中同样的问题 最佳的评估你的任务并合理安排,从而保证项目尽可能迅速而高效的完成 计划和跟踪成本的有关技术 如何针对项目中存在的缺陷做出计划并加以防范 项目经理的特征 知识. 关注项目领域的发展动态,可以从每个人的成功和失误中学习经验教训,从而能更好的完成你的工作.知道所有的工具和技术,并且知道何时使用和如何使用. 绩效. 必须付诸行动,要求你认真而有效地工作. 个人技能. 既然你要管理人,就注意哪些方面能够激励他们,哪些方面会对他们造成障碍.作为一个项目经理,你的任务

Android群英传笔记——第一章:Android体系与系统架构

Android群英传笔记--第一章:Android体系与系统架构 图片都是摘抄自网络 今天确实挺忙的,不过把第一章的笔记做一下还是可以的,嘿嘿 1.1 Google的生态圈 还是得从Android的起源说起,Android是一个以Linux为基础的开源移动设备操作系统,主要用于智能手机和平板电脑,由Google成立的Open Handset Alliance(OHA,开放手持设备联盟)持续领导与开发中.Android已发布的最新版本为Android 6.0.1(M). Android系统最初由安

《秩序之美——网页中的网格设计》——第一章 引言

第一章 引言 从某种层面上讲,设计可被看做一种利用创造力将想法强加于这个世界的方式,但并非传统意义上的强加于世界,而是以一种更恰当,更人性化的尺度. 在由问题出发,沿着思路解决问题的过程中,设计师可以从商业(业务需要,技术限制)或者艺术(美学,易用性,人文因素)的角度来阐述自己的作品.无论如何,最成功的设计可以简化为一种最本质的目的:在混沌中创造秩序. 怎样的秩序?当然是一种能准确反映设计师世界观的秩序.世界应如何运转,设计师有着自己独特的见解和表达方式,由此创造出不同的秩序.它的力量微弱而有限

Android开发艺术探索笔记——第一章:Activity的生命周期和启动模式

Android开发艺术探索笔记--第一章:Activity的生命周期和启动模式 怀着无比崇敬的心情翻开了这本书,路漫漫其修远兮,程序人生,为自己加油! 一.序 作为这本书的第一章,主席还是把Activity搬上来了,也确实,和Activity打交道的次数基本上是最多的,而且他的内容和知识点也是很多的,非常值得我们优先把他掌握,Activity中文翻译过来就是"活动"的意思,但是主席觉得这样翻译有些生硬,直接翻译成"界面"可能更好,的确,Activity主要也是用于U

Java初级笔记-第一章

第一章 Java概览 1.1 基本简介 Java是一种理想的面向对象的网络编程语言. 1991年,出现了Oak语言,旨在解决编程语言的选择和跨平台的问题. 1994年,随着Internet的迅猛发展,Sun Microsystems公司发现Oak语言所具有的跨平台.面向对象.高安全性等特点非常适合于互联网的需要,于是就改进了该语言的设计且命名为"Java",并于1995年正式向IT业界推出. 1.2 Java的应用范畴 随着Java2一系列新技术(如JAVA2D.JAVA3D.SWIN

JavaScript 中级笔记 第一章_javascript技巧

李老师-英语 张老师-数学 刘老师-物理

JAVA 2学习指南 学习笔记---------第一章 语言基础知道

JAVA中的关键字都是小写的.共有49个关键字,2个未使用的保留字:const goto; 数据类型: boolean    byte   int    short   long    float    double    char    class    interface 流程控制: if     else    do    while    for    switch    case    default    break    continue    return    try    c

Python基础教程学习笔记 第一章 基础知识_Android

1.python的每一个语句的后面可以添加分号也可以不添加分号:在一行有多条语句的时候,必须使用分号加以区分 2.查看Python版本号,在Dos窗口中输入"python -V"查看版本号,注意V是大写字母,这条命令是Windows命令,而不是python shell的命令 3.让解释器只执行普通的除法运算:from __feture__ import division 4.执行整除运算的运算符:// 5.取幂运算符:2**4 相当于2的4次方,-2**4相当于2的4次方之后取负,因为

MYSQL必知必会读书笔记 第一章(基础)_Mysql

1.1 什么是数据库 数据库(database)是一个以某种有组织的方式存储的数据集合. 保存有组织的数据的容器(通常是一个文件或一组文件) 注意:人们通常使用数据库来代表他们使用的数据库软件.其实这是不正确的,确切的说,数据库软件应该成为DBMS(数据库管理系统).数据库是通过DBMS创建和操作的容器.数据库可以是保存在硬件设备上的文件,但也可以不是.在很大程度上说,数据库究竟是文件还是别的什么东西并不重要,因为你并不直接访问数据库:你使用的是DBMS,它替你访问数据库. 1.2 表 表(ta