《Python数据挖掘:概念、方法与实践》——1.1节什么是数据挖掘

1.1 什么是数据挖掘
前文解释了数据挖掘的目标是找出数据中的模式,但是细看之下,这一过分简单的解释就站不住脚。毕竟,寻找模式难道不也是经典统计学、商业分析、机器学习甚至更新的数据科学或者大数据的目标吗?数据挖掘和其他这些领域有什么差别呢?当我们实际上是忙于挖掘模式时,为什么将其称作“数据挖掘”?我们不是已经有数据了吗?
从一开始,“数据挖掘”这一术语就明显有许多问题。这个术语最初是统计学家们对盲目调查的轻蔑叫法,在这种调查中,数据分析人员在没有首先形成合适假设的情况下,就着手寻找模式。但是,这一术语在20世纪90年代成为主流,当时的流行媒体风传一种激动人心的研究,将成熟的数据库管理系统领域与来自机器学习和人工智能的最佳算法结合起来。“挖掘”这一单词的加入预示着这是现代的“淘金热”,执著、无畏的“矿工”们将发现(且可能从中得益)之前隐藏的珍宝。“数据本身可能是珍稀商品”这一思路很快吸引了商业上和技术刊物的注意,使他们无视先驱们努力宣传的、更为全面的术语—数据库中的知识发现(KDD)。
但是,“数据挖掘”这一术语沿用了下来,最终,该领域的一些定义试图改变其解释,认为它指的只是更漫长、更全面的知识发现过程中的一步。今天“数据挖掘”和KDD被视为非常相似、紧密相关的术语。
那么,其他相关术语如机器学习、预测性分析、大数据和数据科学又是怎么回事?这些术语和数据挖掘或者KDD是不是一回事?下面我们比较这些术语:
机器学习是计算机科学中的一个非常特殊的子领域,其焦点是开发能从数据中学习以作出预测的算法。许多数据挖掘解决方案使用了来自机器学习的技术,但是并不是所有数据挖掘都试图从数据中作出预测或者学习。有时候,我们只是想要找到数据中的一个模式。实际上,在本书中,我们所研究的数据挖掘解决方案中只有少数使用了机器学习技术,而更多的方案中并没有使用。
预测性分析有时简称为分析,是各个领域中试图从数据中作出预测的计算解决方案的统称。我们可以思考商业分析、媒体分析等不同术语。有些(但并不是全部)预测性分析解决方案会使用机器学习技术进行预测,但是同样,在数据挖掘中,我们并不总是对预测感兴趣。
大数据这一术语指的是处理非常大量数据的问题和解决方案,与我们是要搜索数据中的模式还是简单地存储这些数据无关。对比大数据和数据挖掘这两个术语,许多数据挖掘问题在数据集很大时更为有趣,所以为处理大数据所开发的解决方案迟早可用于解决数据挖掘问题。但是这两个术语只是互为补充,不能互换使用。
数据科学是最接近于KDD过程的术语,数据挖掘是它们的一个步骤。因为数据科学目前是极受欢迎的流行语,它的含义将随着这一领域的成熟而继续发展和变化。
我们可以查看Google Trends,了解上述术语在一段时期内的搜索热度。Google Trends工具展示了一段时期内人们搜索各种关键词的频度。在图1-1中,新出现的术语“大数据”目前是炙手可热的流行语,“数据挖掘”居于第二位,然后是“机器学习”、“数据科学”和“预测性分析”。(我试图加入搜索词“数据库中的知识发现”,但是结果太接近于0,无法看到趋势线。)y轴以0~100的指数显示了特定搜索词的流行度。此外,我们还将Google Trends给出的2014~2015年每周指数组合为月平均值。

时间: 2024-10-28 19:07:46

《Python数据挖掘:概念、方法与实践》——1.1节什么是数据挖掘的相关文章

《Python数据挖掘:概念、方法与实践》一导读

Preface  前言 过去十年,数据存储变得更便宜,硬件变得更快,算法上也有了引人注目的进步,这一切为数据科学的快速兴起铺平了道路,并推动其发展成为计算领域最重要的机遇.虽然"数据科学"一词可以包含从数据清理.数据存储到用图形图表可视化数据的所有环节,但该领域最重要的收获是发明了智能.精密的数据分析算法.使用计算机寻找大量数据中埋藏的有趣模式称为数据挖掘,这一领域包含了数据库系统.统计学和机器学习等课题. 现在,软件开发人员可以找到数十种出色的数据挖掘和机器学习书籍,从而了解这一领域

《Python数据挖掘:概念、方法与实践》一 第1章 扩展你的数据挖掘工具箱

 本节书摘来自华章出版社<Python数据挖掘:概念.方法与实践>一书中的第1章,第1.1节,作者[美] 梅甘·斯夸尔(Megan Squire),更多章节内容可以访问"华章计算机"公众号查看. 第1章 扩展你的数据挖掘工具箱 面对感官信息时,人类自然想要寻找模式,对其进行区别.分类和预测.这种寻找周围模式的过程是人类的基本活动,人类的大脑对此很擅长.利用这种技能,我们的祖先更好地掌握了狩猎.聚会.烹饪和组织知识.因此,人类最早计算机化的任务是模式识别和模式预测也就不足为奇

《Python数据挖掘:概念、方法与实践》扩展你的数据挖掘工具箱

本节书摘来自华章出版社<SAFe 4.0参考指南:精益软件与系统工程的规模化敏捷框架>一书中的第1章,第1节,作者[美] 梅甘·斯夸尔(Megan Squire)更多章节内容可以访问"华章计算机"公众号查看. 扩展你的数据挖掘工具箱 面对感官信息时,人类自然想要寻找模式,对其进行区别.分类和预测.这种寻找周围模式的过程是人类的基本活动,人类的大脑对此很擅长.利用这种技能,我们的祖先更好地掌握了狩猎.聚会.烹饪和组织知识.因此,人类最早计算机化的任务是模式识别和模式预测也就不

《Python数据挖掘:概念、方法与实践》一1.2 如何进行数据挖掘

1.2 如何进行数据挖掘 由于数据挖掘传统上被视为KDD全过程中的一步,并且越来越成为数据科学过程的一部分,在本节中我们将熟悉其所涉及的步骤.进行数据挖掘有多种流行的方法.本书中我们重点介绍4种方法:其中两种取自数据挖掘理论的教科书,一种取自行业中非常实用的过程,一种是为教授入门者而设计的. 1.2.1 Fayyad等人的KDD过程 知识发现和数据挖掘过程的早期版本之一由Usama Fayyad.Gregory Piatetsky-Shapiro和 Padhraic Smyth在1996年的一篇

《Python数据挖掘:概念、方法与实践》——1.2节如何进行数据挖掘

1.2 如何进行数据挖掘 由于数据挖掘传统上被视为KDD全过程中的一步,并且越来越成为数据科学过程的一部分,在本节中我们将熟悉其所涉及的步骤.进行数据挖掘有多种流行的方法.本书中我们重点介绍4种方法:其中两种取自数据挖掘理论的教科书,一种取自行业中非常实用的过程,一种是为教授入门者而设计的.1.2.1 Fayyad等人的KDD过程 知识发现和数据挖掘过程的早期版本之一由Usama Fayyad.Gregory Piatetsky-Shapiro和 Padhraic Smyth在1996年的一篇论

《Python数据挖掘:概念、方法与实践》导读

Contents  目 录 译者序 关于审稿人 前言 第1章 扩展你的数据挖掘工具箱 1.1 什么是数据挖掘 1.2 如何进行数据挖掘 1.2.1 Fayyad等人的KDD过程 1.2.2 韩家炜等人的KDD过程 1.2.3 CRISP-DM过程 1.2.4 六步过程 1.2.5 哪一种数据挖掘方法最好 1.3 在数据挖掘中使用哪些技术 1.4 如何建立数据挖掘工作环境 1.5 小结 第2章 关联规则挖掘 2.1 什么是频繁项集 2.1.1 都市传奇"尿布与啤酒" 2.1.2 频繁项集

《Python数据挖掘:概念、方法与实践》——导读

目 录 前言第1章 扩展你的数据挖掘工具箱1.1 什么是数据挖掘1.2 如何进行数据挖掘1.3 在数据挖掘中使用哪些技术1.4 如何建立数据挖掘工作环境1.5 小结第2章 关联规则挖掘2.1 什么是频繁项集2.2 迈向关联规则2.3 项目-发现软件项目标签中的关联规则2.4 小结 第3章 实体匹配 3.1 什么是实体匹配 3.2 实体匹配项目 3.3 小结 第4章 网络分析 4.1 什么是网络 4.2 网络计量 4.3 图数据的表示 4.4 真实项目 4.5 小结 第5章 文本情绪分析 5.1

概要设计、详细设计:概念、方法、实践步骤

完整软件开发流程: 需求分析.概要设计.详细设计 一 1.  概念.方法.实践步骤 设计是指根据需求开发的结果,对产品的技术实现由粗到细进行设计的过程.根据设计粒度和目的的不同可以将设计分为概要设计.详细设计等阶段以便于管理和确保质量.设计内容也要根据软件系统的实际情况进行定义,比如对于交互性要求高的系统可以有视觉设计等等. 一般来说可以将设计阶段划分为概要设计.详细设计2阶段进行管理,程序设计可以结合项目管理.作业配分.开发团队的能力以及质量要求等因素来决定是否作为单独的阶段进行管理. n  

《软件工程方法与实践》—— 2.5 软件工程活动

本节书摘来自华章出版社<软件工程方法与实践>一 书中的第2章,第2.5节,作者窦万峰,更多章节内容可以访问"华章计算机"公众号查看. 2.5 软件工程活动 在软件工程的概念被提出来之前,开发人员错误地认为,软件就是开发活动,或者极端地认为其就是编码,至于分析和设计等都是次要的.随着软件规模的不断增大,软件开发活动中暴露出很多问题.软件工程是为克服这些问题而被提出,并在实践中不断地探索它的原理.技术和方法.软件工程的工程化思想让开发人员看到,软件工程活动包括沟通活动.计划活动

《软件工程方法与实践》—— 导读

前 言 软件工程包含一系列软件开发的基本原理.方法和实践经验,用来指导人们进行正确的软件开发.软件工程强调从工程化的原理出发,按照标准化规程和软件开发实践来引导软件开发人员进行软件开发和实践活动,并进行过程改进,促进软件企业向标准化和成熟化的方向发展.软件工程是一门理论与实践相结合的学科,更注重通过实践来理解原理和方法.为此,我们结合多年的软件工程教学和项目开发经验,通过5个项目实例,从不同的角度.利用不同的方法学来循序渐进地介绍软件开发过程中所涉及的原理.方法和技术.本书的另一个特色是从问题的