《Python数据挖掘:概念、方法与实践》——第1章扩展你的数据挖掘工具箱

第1章
扩展你的数据挖掘工具箱
面对感官信息时,人类自然想要寻找模式,对其进行区别、分类和预测。这种寻找周围模式的过程是人类的基本活动,人类的大脑对此很擅长。利用这种技能,我们的祖先更好地掌握了狩猎、聚会、烹饪和组织知识。因此,人类最早计算机化的任务是模式识别和模式预测也就不足为奇了,这种渴望一直持续到现在。近来,根据给定项目的目标,使用计算机找出数据中的模式,已经涉及数据库系统、人工智能、统计学、信息检索、计算机视觉和其他各种计算机科学子领域,以及信息系统、数学或者商业等。不管我们将这种活动称作什么—数据库中的知识发现、数据挖掘、数据科学,其主要使命始终是找出有趣的模式。
这一使命听起来似乎有些微不足道,数据挖掘已经存在了很长时间,对其实现已经积累了足够多的变种,但是现在它已经成为了一个广泛而复杂的领域。我们可以想象一所烹饪学校,其中的每位新人首先学习的是如何煮开水,如何使用刀具,然后才转向更高级的技能,如制作松饼或者为鸡肉去骨。在数据挖掘中,也有一些常用的技术,刚入门的数据挖掘人员也要学习它们:如何构建分类器,如何在数据中找到聚类宏。但是,本书的主题是精通Python数据挖掘,所以,作为“精通”级别的书籍,目标是传授给你一些在之前的数据挖掘项目中未曾见过的技术。
在第1章中,我们将介绍如下主题:
什么是数据挖掘?要确定数据挖掘在不断增强的其他相似概念中的位置,还将学习这一学科成长和变化的历史。
我们如何进行数据挖掘?在此,我们将对比数据挖掘项目中常用的几种过程或者方法论。
数据挖掘中使用哪些技术?在这一部分,将总结数据挖掘定义中包含的典型数据分析技术,并强调这本精通级书籍将要涵盖的较为独特却未得到应有重视的技术。
如何建立数据挖掘工作环境?最后,我们将经历建立基于Python开发环境的过程,我们将用这个环境完成本书余下部分中的项目。

时间: 2024-09-17 04:25:13

《Python数据挖掘:概念、方法与实践》——第1章扩展你的数据挖掘工具箱的相关文章

《Python数据挖掘:概念、方法与实践》一 第1章 扩展你的数据挖掘工具箱

 本节书摘来自华章出版社<Python数据挖掘:概念.方法与实践>一书中的第1章,第1.1节,作者[美] 梅甘·斯夸尔(Megan Squire),更多章节内容可以访问"华章计算机"公众号查看. 第1章 扩展你的数据挖掘工具箱 面对感官信息时,人类自然想要寻找模式,对其进行区别.分类和预测.这种寻找周围模式的过程是人类的基本活动,人类的大脑对此很擅长.利用这种技能,我们的祖先更好地掌握了狩猎.聚会.烹饪和组织知识.因此,人类最早计算机化的任务是模式识别和模式预测也就不足为奇

《Python数据挖掘:概念、方法与实践》——1.2节如何进行数据挖掘

1.2 如何进行数据挖掘 由于数据挖掘传统上被视为KDD全过程中的一步,并且越来越成为数据科学过程的一部分,在本节中我们将熟悉其所涉及的步骤.进行数据挖掘有多种流行的方法.本书中我们重点介绍4种方法:其中两种取自数据挖掘理论的教科书,一种取自行业中非常实用的过程,一种是为教授入门者而设计的.1.2.1 Fayyad等人的KDD过程 知识发现和数据挖掘过程的早期版本之一由Usama Fayyad.Gregory Piatetsky-Shapiro和 Padhraic Smyth在1996年的一篇论

《Python数据挖掘:概念、方法与实践》一1.3 在数据挖掘中使用哪些技术

1.3 在数据挖掘中使用哪些技术 现在我们对数据挖掘在整个KDD或者数据科学过程中的位置有了了解,下面就可以开始讨论完成这一任务的细节了. 从试图定义数据挖掘的早期起,几类相关的问题就一再出现.Fayyad等人在1996年的另一篇重要论文"From Data Mining to Knowledge Discovery in Databases"中提出了6类问题,我们将其总结如下: 分类问题.这里,有需要根据某些特征分成预定义类别的数据.我们需要一种算法,使用过去已经分类的数据,学习如何

《Python数据挖掘:概念、方法与实践》——1.4节如何建立数据挖掘工作环境

1.4 如何建立数据挖掘工作环境 前面几节帮助我们更好地了解了将要从事的项目及原因.现在可以开始建立一个开发环境,支持所有项目工作了.由于本书的目的是介绍如何构建挖掘数据模式的软件,因此我们将用一种通用编程语言编写程序.Python编程语言具有非常强大且仍在不断成长.专门致力于数据挖掘的社区.这个社区已经贡献了一些非常方便的程序库,我们可以用来进行高效的处理,我们还可以依靠他们提供的许多数据类型,更快地工作. 在本书编著时,有两个版本的Python可供下载:现在被视为经典的Python 2(最新

《Python数据挖掘:概念、方法与实践》——1.1节什么是数据挖掘

1.1 什么是数据挖掘前文解释了数据挖掘的目标是找出数据中的模式,但是细看之下,这一过分简单的解释就站不住脚.毕竟,寻找模式难道不也是经典统计学.商业分析.机器学习甚至更新的数据科学或者大数据的目标吗?数据挖掘和其他这些领域有什么差别呢?当我们实际上是忙于挖掘模式时,为什么将其称作"数据挖掘"?我们不是已经有数据了吗?从一开始,"数据挖掘"这一术语就明显有许多问题.这个术语最初是统计学家们对盲目调查的轻蔑叫法,在这种调查中,数据分析人员在没有首先形成合适假设的情况下

《Python数据挖掘:概念、方法与实践》一导读

Preface  前言 过去十年,数据存储变得更便宜,硬件变得更快,算法上也有了引人注目的进步,这一切为数据科学的快速兴起铺平了道路,并推动其发展成为计算领域最重要的机遇.虽然"数据科学"一词可以包含从数据清理.数据存储到用图形图表可视化数据的所有环节,但该领域最重要的收获是发明了智能.精密的数据分析算法.使用计算机寻找大量数据中埋藏的有趣模式称为数据挖掘,这一领域包含了数据库系统.统计学和机器学习等课题. 现在,软件开发人员可以找到数十种出色的数据挖掘和机器学习书籍,从而了解这一领域

《Python数据挖掘:概念、方法与实践》扩展你的数据挖掘工具箱

本节书摘来自华章出版社<SAFe 4.0参考指南:精益软件与系统工程的规模化敏捷框架>一书中的第1章,第1节,作者[美] 梅甘·斯夸尔(Megan Squire)更多章节内容可以访问"华章计算机"公众号查看. 扩展你的数据挖掘工具箱 面对感官信息时,人类自然想要寻找模式,对其进行区别.分类和预测.这种寻找周围模式的过程是人类的基本活动,人类的大脑对此很擅长.利用这种技能,我们的祖先更好地掌握了狩猎.聚会.烹饪和组织知识.因此,人类最早计算机化的任务是模式识别和模式预测也就不

《Python数据挖掘:概念、方法与实践》一1.2 如何进行数据挖掘

1.2 如何进行数据挖掘 由于数据挖掘传统上被视为KDD全过程中的一步,并且越来越成为数据科学过程的一部分,在本节中我们将熟悉其所涉及的步骤.进行数据挖掘有多种流行的方法.本书中我们重点介绍4种方法:其中两种取自数据挖掘理论的教科书,一种取自行业中非常实用的过程,一种是为教授入门者而设计的. 1.2.1 Fayyad等人的KDD过程 知识发现和数据挖掘过程的早期版本之一由Usama Fayyad.Gregory Piatetsky-Shapiro和 Padhraic Smyth在1996年的一篇

《Python数据挖掘:概念、方法与实践》导读

Contents  目 录 译者序 关于审稿人 前言 第1章 扩展你的数据挖掘工具箱 1.1 什么是数据挖掘 1.2 如何进行数据挖掘 1.2.1 Fayyad等人的KDD过程 1.2.2 韩家炜等人的KDD过程 1.2.3 CRISP-DM过程 1.2.4 六步过程 1.2.5 哪一种数据挖掘方法最好 1.3 在数据挖掘中使用哪些技术 1.4 如何建立数据挖掘工作环境 1.5 小结 第2章 关联规则挖掘 2.1 什么是频繁项集 2.1.1 都市传奇"尿布与啤酒" 2.1.2 频繁项集