《Python数据挖掘:概念、方法与实践》——1.4节如何建立数据挖掘工作环境

1.4 如何建立数据挖掘工作环境
前面几节帮助我们更好地了解了将要从事的项目及原因。现在可以开始建立一个开发环境,支持所有项目工作了。由于本书的目的是介绍如何构建挖掘数据模式的软件,因此我们将用一种通用编程语言编写程序。Python编程语言具有非常强大且仍在不断成长、专门致力于数据挖掘的社区。这个社区已经贡献了一些非常方便的程序库,我们可以用来进行高效的处理,我们还可以依靠他们提供的许多数据类型,更快地工作。
在本书编著时,有两个版本的Python可供下载:现在被视为经典的Python 2(最新版本为2.7)和Python 3(最新版本为3.5)。本书将使用Python 3。因为我们需要使用许多相关的程序包和程序库,尽可能地使数据挖掘体验不那么痛苦,也因为其中一些程序包和库难以安装,所以这里我建议使用专为科学及数学计算设计的Python分发版本。具体地说,我推荐Continuum Analytics 制作的Python 3.5 Anaconda分发版本。他们的基本Python分发版本是免费的,所有组件都保证能够协同工作,而无需我们进行令人沮丧的兼容性保证工作。
要下载Anaconda Python分发版本,只需要用浏览器访问Continuum Analytics的网站(https://www.continuum.io),根据提示符下载适合你的操作系统的Anaconda免费版本(目前的编号是3.5或者更高)。
启动该软件
根据你使用的版本和下载的时间,Anaconda中的每个应用程序中除了Launch按钮之外可能还有几个Update(更新)按钮。如果你的软件版本显示需要,可以单击每个按钮以更新程序包。

为了开始编写Python代码,单击Spyder以启动代码编辑器和集成开发环境。如果你想使用自己的文本编辑器(如MacOS上的TextWrangler或者Windows上的Sublime编辑器),完全没有问题。可以从命令行运行Python代码。
花一点时间将Spyder配置成你喜欢的样子,设置颜色和常规布局,或者保留默认值。对于我自己的工作空间,我移动了几个控制台窗口,建立一个工作目录,并进行几个自定义调整,使自己更适应这个新编辑器。你也可以这么做,使开发环境更舒适。
现在,我们已经为测试编辑器和安装程序库做好了准备。单击File(文件)并选择New File(新建文件)测试Spyder编辑器,观察其工作方式。然后,输入简单的“Hello World”语句:

单击绿色箭头,按下F5键或者单击Run(运行)菜单中的Run命令,运行程序。不管用哪一种方式,程序将执行,你将在控制台输出窗口看到输出。
此时,我们知道Spyder和Python正在工作,可以测试和安装一些程序库了。
首先,打开一个新文件,将其保存为packageTest.py。在这个测试程序中,我们将确定Scikit-learn是否已经随Anaconda正确安装。Scikit-learn是很重要的程序包,包含了许多机器学习函数,以及用于测试这些函数的现成数据集。许多书籍和教程使用Scikit-learn示例教授数据挖掘,所以在我们的工具箱中也有这个程序包。我们将在本书的多个章节中使用这个程序包。
运行Scikit-learn网站上的教程中的如下小程序(可以在http://scikit-learn.org/stable/tutorial/basic/tutorial.html #loading-an-example-dataset上找到),它将告诉我们环境是否正常建立。
最后,由于本书是关于数据挖掘或者数据结构中的知识发现的书籍,因此使用某种数据库软件绝对是个好主意。我选择MySQL实现本书中的项目,因为它是免费软件,易于安装,可用于许多种操作系统。
要得到MySQL,可以进入http://dev.mysql.com/downloads/mysql/,找到你要用操作系统的免费社区版本(Community Edition)下载页面。
为了让Anaconda Python与MySQL通信,必须安装一些MySQL Python驱动程序。我喜欢pymysql驱动程序,因为它相当健壮,没有标准驱动程序常会有的一些Bug。从Anaconda中,启动一个终端窗口,运行如下命令:

现在所有模块似乎都已经安装,可以在需要它们时使用。如果还需要其他模块,或者其中一个模块过时,现在我们也已经知道如何在必要时安装或者升级模块了。

时间: 2024-09-13 03:52:56

《Python数据挖掘:概念、方法与实践》——1.4节如何建立数据挖掘工作环境的相关文章

《Python数据挖掘:概念、方法与实践》一导读

Preface  前言 过去十年,数据存储变得更便宜,硬件变得更快,算法上也有了引人注目的进步,这一切为数据科学的快速兴起铺平了道路,并推动其发展成为计算领域最重要的机遇.虽然"数据科学"一词可以包含从数据清理.数据存储到用图形图表可视化数据的所有环节,但该领域最重要的收获是发明了智能.精密的数据分析算法.使用计算机寻找大量数据中埋藏的有趣模式称为数据挖掘,这一领域包含了数据库系统.统计学和机器学习等课题. 现在,软件开发人员可以找到数十种出色的数据挖掘和机器学习书籍,从而了解这一领域

《Python数据挖掘:概念、方法与实践》导读

Contents  目 录 译者序 关于审稿人 前言 第1章 扩展你的数据挖掘工具箱 1.1 什么是数据挖掘 1.2 如何进行数据挖掘 1.2.1 Fayyad等人的KDD过程 1.2.2 韩家炜等人的KDD过程 1.2.3 CRISP-DM过程 1.2.4 六步过程 1.2.5 哪一种数据挖掘方法最好 1.3 在数据挖掘中使用哪些技术 1.4 如何建立数据挖掘工作环境 1.5 小结 第2章 关联规则挖掘 2.1 什么是频繁项集 2.1.1 都市传奇"尿布与啤酒" 2.1.2 频繁项集

《Python数据挖掘:概念、方法与实践》——导读

目 录 前言第1章 扩展你的数据挖掘工具箱1.1 什么是数据挖掘1.2 如何进行数据挖掘1.3 在数据挖掘中使用哪些技术1.4 如何建立数据挖掘工作环境1.5 小结第2章 关联规则挖掘2.1 什么是频繁项集2.2 迈向关联规则2.3 项目-发现软件项目标签中的关联规则2.4 小结 第3章 实体匹配 3.1 什么是实体匹配 3.2 实体匹配项目 3.3 小结 第4章 网络分析 4.1 什么是网络 4.2 网络计量 4.3 图数据的表示 4.4 真实项目 4.5 小结 第5章 文本情绪分析 5.1

《Python数据挖掘:概念、方法与实践》一 第1章 扩展你的数据挖掘工具箱

 本节书摘来自华章出版社<Python数据挖掘:概念.方法与实践>一书中的第1章,第1.1节,作者[美] 梅甘·斯夸尔(Megan Squire),更多章节内容可以访问"华章计算机"公众号查看. 第1章 扩展你的数据挖掘工具箱 面对感官信息时,人类自然想要寻找模式,对其进行区别.分类和预测.这种寻找周围模式的过程是人类的基本活动,人类的大脑对此很擅长.利用这种技能,我们的祖先更好地掌握了狩猎.聚会.烹饪和组织知识.因此,人类最早计算机化的任务是模式识别和模式预测也就不足为奇

《Python数据挖掘:概念、方法与实践》扩展你的数据挖掘工具箱

本节书摘来自华章出版社<SAFe 4.0参考指南:精益软件与系统工程的规模化敏捷框架>一书中的第1章,第1节,作者[美] 梅甘·斯夸尔(Megan Squire)更多章节内容可以访问"华章计算机"公众号查看. 扩展你的数据挖掘工具箱 面对感官信息时,人类自然想要寻找模式,对其进行区别.分类和预测.这种寻找周围模式的过程是人类的基本活动,人类的大脑对此很擅长.利用这种技能,我们的祖先更好地掌握了狩猎.聚会.烹饪和组织知识.因此,人类最早计算机化的任务是模式识别和模式预测也就不

《Python数据挖掘:概念、方法与实践》——第1章扩展你的数据挖掘工具箱

第1章 扩展你的数据挖掘工具箱 面对感官信息时,人类自然想要寻找模式,对其进行区别.分类和预测.这种寻找周围模式的过程是人类的基本活动,人类的大脑对此很擅长.利用这种技能,我们的祖先更好地掌握了狩猎.聚会.烹饪和组织知识.因此,人类最早计算机化的任务是模式识别和模式预测也就不足为奇了,这种渴望一直持续到现在.近来,根据给定项目的目标,使用计算机找出数据中的模式,已经涉及数据库系统.人工智能.统计学.信息检索.计算机视觉和其他各种计算机科学子领域,以及信息系统.数学或者商业等.不管我们将这种活动称

《Python数据挖掘:概念、方法与实践》一1.4 如何建立数据挖掘工作环境

1.4 如何建立数据挖掘工作环境 前面几节帮助我们更好地了解了将要从事的项目及原因.现在可以开始建立一个开发环境,支持所有项目工作了.由于本书的目的是介绍如何构建挖掘数据模式的软件,因此我们将用一种通用编程语言编写程序.Python编程语言具有非常强大且仍在不断成长.专门致力于数据挖掘的社区.这个社区已经贡献了一些非常方便的程序库,我们可以用来进行高效的处理,我们还可以依靠他们提供的许多数据类型,更快地工作. 在本书编著时,有两个版本的Python可供下载:现在被视为经典的Python 2(最新

《Python数据挖掘:概念、方法与实践》一1.2 如何进行数据挖掘

1.2 如何进行数据挖掘 由于数据挖掘传统上被视为KDD全过程中的一步,并且越来越成为数据科学过程的一部分,在本节中我们将熟悉其所涉及的步骤.进行数据挖掘有多种流行的方法.本书中我们重点介绍4种方法:其中两种取自数据挖掘理论的教科书,一种取自行业中非常实用的过程,一种是为教授入门者而设计的. 1.2.1 Fayyad等人的KDD过程 知识发现和数据挖掘过程的早期版本之一由Usama Fayyad.Gregory Piatetsky-Shapiro和 Padhraic Smyth在1996年的一篇

《Python数据挖掘:概念、方法与实践》——1.2节如何进行数据挖掘

1.2 如何进行数据挖掘 由于数据挖掘传统上被视为KDD全过程中的一步,并且越来越成为数据科学过程的一部分,在本节中我们将熟悉其所涉及的步骤.进行数据挖掘有多种流行的方法.本书中我们重点介绍4种方法:其中两种取自数据挖掘理论的教科书,一种取自行业中非常实用的过程,一种是为教授入门者而设计的.1.2.1 Fayyad等人的KDD过程 知识发现和数据挖掘过程的早期版本之一由Usama Fayyad.Gregory Piatetsky-Shapiro和 Padhraic Smyth在1996年的一篇论