数据挖掘的入门概念

1 数据挖掘

数据挖掘(Data Mining,简称DM),是指从大量的数据中,挖掘出未知的且有价值的信息和知识的过程。

2 机器学习 与 数据挖掘

与数据挖掘类似的有一个术语叫做”机器学习“,这两个术语在本质上的区别不大,如果在书店分别购买两本讲数据挖掘和机器学习的书籍,书中大部分内容都是互相重复的。具体来说,小的区别如下:

机器学习:更侧重于技术方面和各种算法,一般提到机器学习就会想到语音识别,图像视频识别,机器翻译,无人驾驶等等各种其他的模式识别,甚至于谷歌大脑等AI,这些东西的一个共同点就是极其复杂的算法,所以说机器学习的核心就是各种精妙的算法。

数据挖掘:更偏向于“数据”而非算法,而且包括了很多数据的前期处理,用爬虫爬取数据,然后做数据的清洗,数据的整合,数据有效性检测,数据可视化(画图)等等,最后才是用一些统计的或者机器学习的算法来抽取某些有用的“知识”。前期数据处理的工作比较多。

所以,数据挖掘的范畴要更广泛一些。

3 数据挖掘所覆盖的学科

数据挖掘是一门交叉学科,覆盖了统计学、计算机程序设计、数学与算法、数据库、机器学习、市场营销、数据可视化等领域的理论和实践成果

4 数据挖掘的误区

误区一:算法至上论。认为数据挖据是某些对大量数据操作的算法,这些算法能够自动地发现新的知识。

误区二:技术至上论。认为数据挖据必须需要非常高深的分析技能,需要精通高深的数据挖掘算法,需要熟练程序开发设计。

这两种认知都有一定的偏颇。实际上,数据挖掘本质上是人们处理商业问题的方法,通过适量的数据挖掘来获得有价值的结果,技术在随着大数据时代的来临变得愈发重要,但是最好的数据挖掘工程师往往是那些熟悉和理解业务的人。

5 数据挖掘能解决什么问题

商业上的问题多种多样,例如:

“如何能降低用户流失率?”

“某个用户是否会响应本次营销活动?“

"如何细分现有目标市场?"

“如何制定交叉销售策略以提升销售额?”

“如何预测未来销量?”

从数据挖掘的角度看,都可以转换为五类问题:

分类问题

聚类问题

回归问题

关联分析

推荐系统

5.1 分类问题

简单来说,就是根据已经分好类的一推数据,分析每一类的潜在特征建立分类模型。对于新数据,可以输出新出具属于每一类的概率。

比如主流邮箱都具备的垃圾邮件识别功能:一开始,正常邮件和垃圾邮件都是混合在一起的,如果我们手工去点击哪些是垃圾邮件,逐渐的,垃圾邮件就会自动被识别放到垃圾文件夹。如果我们对于混在正常邮件中的垃圾持续进行判断,系统的识别率就会越来越高。我们人工点击判断,相当于预先分类(两类:垃圾邮件和非垃圾邮件),系统就会自己学习两类邮件的特征建立模式,对于新邮件,会根据模式判断属于每个类别的可能性。

分类算法示意

5.2 聚类问题

和分类算法是不同概念,但是工作中业务人员经常误用。 聚类的的目的也是把数据分类,但类别并不是预先定义的,算法根据“物以类聚”的原则,判断各条数据之间的相似性,相似的就归为一类。

比如我有十万消费者的信息数据,比如包括性别,年龄,收入,消费等,通过聚类的方法事可以把这些数据分成不同的群,理论上每群用户内都是相似性较高的,就可以覆盖分群用户制定不同的策略

聚类算法示意

5.3 回归问题

回归问题和分类问题有点类似,但是回归问题中的因变量是一个数值,而分类问题,最终输出的因变量是一个类别。简单理解,就是定义一个因变量,在定义若干自变量,找到一个数学公式,描述自变量和因变量之间的关系。

比如,我们要研究房价(Y),然后收集房子距离市中心的距离(X1),面积(X2),收集足够多的房子的数据,就可以建立一个房价和距离、面积的方程式(例如Y=aX1+bX2),这样给出一个新的距离和面积数据,就可以预测这个房子的价格。

回归问题示意

5.4 关联分析

关联分析主要就是指”购物篮分析“,很有名气案例是【啤酒与尿布】的故事,”据说“这是一个真实的案例:沃尔玛在分析销售记录时,发现啤酒和尿布经常一起被购买,于是他们调整了货架,把两者放在一起,结果真的提升了啤酒的销量。后来还分析背后的原因,说是因为爸爸在给宝宝买尿布的时候,会顺便给自己买点啤酒……

所以,关联分析就是基于数据识别产品之间潜在的关联,识别有可能频繁发生的模式。

5.5 推荐系统

利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。也就是平时我们在浏览电商网站、视频网站、新闻App中的"猜你喜欢"、“其他人也购买了XXX”等类似的功能。

5.6 数据挖掘的工作流程

数据挖掘的通用流程叫做CRISP-DM(Cross Industry Standard Process-Data Mining)数据挖掘方法论。

CRISP-DM

6.1 商业理解

商业理解阶段主要完成对商业问题的界定,以及对企业内外部资源进行评估与组织,最终确定将企业的商业目标转化为数据挖掘目标,并制定项目的方案

6.2 数据理解

了解企业目前数据现状,提出数据需求,并尽可能多的收集数据。通过初步的数据探索,快速了解数据的质量

6.3 数据准备

在建立数据挖掘模型之前对数据做最后的准备工作,主要是把收集到的各部分数据关联起来,形成一张最终数据宽表。这个阶段其实是耗时最长的阶段,一般会占据整个数据挖掘项目的70%左右的时间,包括数据导入、数据抽取、数据清洗、数据合并、新变量计算等工作。

6.4 模型构建

模型构建是数据挖掘工作的核心阶段。主要包括准备模型的训练集和验证集,选择并使用适当的建模技术和算法,模型建立,模型效果对比等工作

6.5 模型评估

模型评估主要从两个方面进行评价:

1)技术层面:

- 设计对照组进行比较。

- 根据常用的模型评估指标进行评价,如命中率、覆盖率、提升度等

2)业务经验:业务专家凭借业务经验对数据挖掘结果进行评估

6.6 模型部署

将数据挖掘成果程序化,将模型写成存储过程固化到IT平台上,并持续观察模型衰退变化,在发生模型衰退时,引入新的变量进行模型优化。

本文作者:程Sir 程SIR说

来源:51CTO

时间: 2024-09-30 11:07:30

数据挖掘的入门概念的相关文章

MongoDB入门概念

MongoDB入门概念 Mongo的一些概念: documents:类似json的数据结构,是最基础的存储单位,如:{ name : "mongo" } collection:每个collection下面可以有很多个不同的documents cursor:每个查询都会返回cursor,用于迭代获取每行结果数据 #进入shell bin/mongo #查看当前数据库 db #查看所有数据库 show dbs #使用数据库 use mydb #创建documents j = { name

数据挖掘中的概念描述

数据挖掘一般可分为描述型数据挖掘和预测型数据挖掘,概念描述讲的就是描述型数据挖掘. 一.概念描述基本知识 1.1 两种类型的数据挖掘 从数据分析角度出发,数据挖掘可分为两种类型: 描述型数据挖掘:以简洁概要方式描述数据 预测型数据挖掘:预测性数据挖掘则是通过对所提供数据集应用特定方法分析所获得的一个或一组数据模型,并将该模型用于预测未来新数据的有关性质. 1.2 概念描述 描述型数据挖掘又称为概念描述,概念描述是数据挖掘的一个重要部分.描述型数据挖掘最简单的类型就是概念描述.概念描述描述的是数据

java入门概念个人理解之package与import浅析_java

由于近来学习java,遇到了一些在c++上没有的概念,将它记录下,以自己复习使用,如有不理解妥之处,望大家批评指导.资料均由网上经过自己整合理解而来,如有侵权请通知我将起删除即可. 我就以package与import开始吧. package的作用其实就是c++的namespace的作用,防止名字相同的类产生冲突,只是实现的机制不一样,java编译器在编译时,直接根据package 指定的信息直接将生成的class文件生成到对应目录下.如package aaa.bbb.ccc 编译器就将该.jav

Maven入门--概念与实例

关键名词 Project:任何您想build的事物,Maven都可以认为它们是工程.这些工程被定义为工程对象模型(POM,Poject Object Model).一个工程可以依赖其它的工程:一个工程也可以由多个子工程构成.POM:POM(pom.xml)是Maven的核心文件,它是指示Maven如何工作的元数据文件,类似于Ant中的build.xml文件.POM文件位于每个工程的根目录中.GroupId:groupId是一个工程的在全局中唯一的标识符,一般地,它就是工程名.groupId有利于

android入门 概念-android菜鸟的疑问,我已傻傻分不清

问题描述 android菜鸟的疑问,我已傻傻分不清 android系统和androidSDK是什么关系?安卓系统可以提供安卓软件的运行环境吗?这个运行环境是什么? 解决方案 按照你的理解是 安卓系统是提供运行的环境,sdk是编译代码的 解决方案二: 你的手机的操作系统就是Android系统,Android SDK是开发环境 解决方案三: 前者包括后者,后者就是编译代码的!或者说 有跟是的关系! 解决方案四: 安卓系统就是运行在手机上的系统啊.就像苹果手机上的ios系统.电脑主机上的windows

数据挖掘系列(1)关联规则挖掘基本概念与Aprior算法

我计划整理数据挖掘的基本概念和算法,包括关联规则挖掘.分类.聚类的常用算法,敬请期待. 今天讲的是关联规则挖掘的最基本的知识. 关联规则挖掘在电商.零售.大气物理.生物医学已经有了广泛的应用,本篇文章将介绍一些基本 知识和Aprori算法. 啤酒与尿布的故事已经成为了关联规则挖掘的经典案例,还有人专门出了一本书<啤酒与尿布>, 虽然说这个故事是哈弗商学院杜撰出来的,但确实能很好的解释关联规则挖掘的原理.我们这里以一 个超市购物篮迷你数据集来解释关联规则挖掘的基本概念: 表中的每一行代表一次购买

《R语言数据挖掘:实用项目解析》——导读

前 言 随着数据规模和种类的增长,应用数据挖掘技术从大数据中提取有效信息变得至关重要.这是因为企业认为有必要从大规模数据的实施中获得相应的投资回报.实施数据挖掘的根本性原因是要从大型数据库中发现隐藏的商机,以便利益相关者能针对未来业务做出决策.数据挖掘不仅能够帮助企业降低成本以及提高收益,还能帮助他们发现新的发展途径. 本书将介绍使用R语言(一种开源工具)进行数据挖掘的基本原理.R是一门免费的程序语言,同时也是一个提供统计计算.图形数据可视化和预测建模的软件环境,并且可以与其他工具和平台相集成.

《R语言与数据挖掘最佳实践和经典案例》—— 导读

前言 数据挖掘自产生以来就是以分析数据.理解数据的实际需求为推动力的,其研究发展也逐步渗透到工业.农业.医疗卫生和商业的实际需求当中.R语言是在S语言的基础上逐步衍生出来的致力于数据统计分析与制图的语言.目前开源软件R也成为了世界上最流行的数据分析和处理工具之一,在学术研究和商业应用中都得到了广大数据分析者的青睐. 本书不是一本入门指导书,没有详细介绍数据挖掘技术的概念和理论,也没有介绍R语言的语言环境和语法规则,每一章节都结合具体例子详细介绍了R语言在数据挖掘的数据分析中的使用,实用性强.本书

Android开发入门(十六)其他视图 16.1 AnalogClock和DigitalClock

AnalogClock视图显示了一个模拟的时钟,其中有一个时针和一个分针.与其相对的是DigitalClock视图 ,它可以显示数字模拟时钟.这两个视图只能显示系统时间,不允许显示一个特定时区的时间.因此,如果 你想要显示一个特定时区的时间,那么你就不得不去实现你自己的自定义控件了. 注:关于如何自定 义控件,请查看如下网址. http://developer.android.com/guide/topics/ui/custom- components.html 使用AnalogClock与Di