《Python数据分析与挖掘实战》一2.1 搭建Python开发平台

2.1 搭建Python开发平台

2.1.1 所要考虑的问题

Python的官网:https://www.python.org/。
搭建Python开发平台有几个问题需要考虑,第一是选择什么操作系统,是Windows还是Linux?第二是选择哪个Python版本,是2.x还是3.x?
首先,来回答后一个问题。3.x是对2.x的一个较大的更新,可以认为,Python 3.x什么都好,就是它的部分代码不兼容2.x的,这使得不少好用的库都无法支持3.x(值得庆幸的是,越来越多的主流库已经开始支持3.x了)。对于本书来说,本书使用Python 2.7版本,但是本书的代码尽可能地同时兼容2.x和3.x,包括在各种第三方库也使用两个版本都兼容的扩展库。因此,在阅读本书的时候,不管你已经装了2.x还是3.x,都无须在这个问题上太多纠结。

其次,就是选择操作系统的问题,主要是在Windows和Linux之间选择。Python是跨平台的语言,因此脚本可以跨平台运行。然而,不同的平台运行效率不一样,一般来说,在Linux下的运行速度会比Windows快,而且是对于数据分析和挖掘任务。此外,在Linux下搭建Python环境相对来说容易一些,很多Linux发行版自带了Python程序,并且在Linux下更容易解决第三方库的依赖问题。当然,Linux的操作门槛较高,入门的读者可以先在Windows环境下熟悉,然后再考虑迁移到Linux环境中。

2.1.2 基础平台的搭建

第一步是Python核心程序的安装,分为Windows和Linux介绍;最后介绍一个Python的科学计算发行版—Anaconda。
(1)Windows
在Windows系统中安装Python比较容易,直接到官方网站下载相应的msi安装包安装即可,和一般软件的安装无异,在此不赘述。安装包还分32位和64位版本,请读者自行选择适合的版本。
(2)Linux
大多数Linux发行版,如CentOs、Debian、Ubuntu等,都已经自带了Python 2.x的主程序,因此并不需要额外安装。
(3)Anaconda
安装Python核心程序只是第一步,为了实现更丰富的科学计算功能,还需要安装一些第三方的扩展库,这对于一般的读者来说可能显得比较麻烦,尤其是在Windows环境中还可能出现各种错误。幸好,已经有人专门将科学计算所需要的模块都编译好,然后打包以发行版的形式供用户使用,Anaconda就是其中一个常用的科学计算发行版。
Anaconda的特点如下。
1)包含了众多流行的科学、数学、工程、数据分析的Python包。
2)完全开源和免费。
3)额外的加速、优化是收费的,但对于学术用途可以申请免费的License。
4)全平台支持:Linux、Windows、Mac;支持Python 2.6、2.7、3.3、3.4,可自由切换。
因此,推荐初级读者(尤其是Windows环境下的读者)安装此Python发行版。读者只需要到官方网站下载安装包安装,网址为:http://continuum.io/downloads。
安装好Python后,只需要在命令窗口输入python就可以进入Python环境,如图2-3是在Windows下启动Python 2.7.8的界面。

时间: 2024-09-16 02:36:36

《Python数据分析与挖掘实战》一2.1 搭建Python开发平台的相关文章

《Python数据分析与挖掘实战》一2.5 小结

2.5 小结 本章主要对Python进行简单介绍,包括软件安装.使用入门及相关注意事项和Python数据分析及挖掘相关工具箱.由于Python包含多个领域的扩展库,而且扩展库的功能也相当丰富,本章只介绍与数据分析及数据挖掘相关的一小部分,包括高维数组.数值计算.可视化.机器学习.神经网络和语言模型等.这些扩展库里面包含的函数在后续章节中会进行实例分析,通过在Python平台上完成实际案例来掌握数据分析和数据挖掘的原理,培养读者应用数据分析和挖掘技术解决实际问题的能力.

《Python数据分析与挖掘实战》一2.3 Python数据分析工具

2.3 Python数据分析工具 Python本身的数据分析功能不强,需要安装一些第三方扩展库来增强它的能力.本书用到的库有Numpy.Scipy.Matplotlib.Pandas.Scikit-Learn.Keras和Gensim等,下面将对这些库的安装和使用进行简单的介绍. 如果读者安装的是Anaconda发行版,那么它已经自带了以下库:Numpy.Scipy.Mat-plotlib.Pandas和Scikit-Learn. 本章主要是对这些库进行简单的介绍,在后面的章节中,会通过各种案例

《Python数据分析与挖掘实战》一导读

前 言 为什么要写这本书LinkedIn对全球超过3.3亿用户的工作经历和技能进行分析后得出,目前最炙手可热的25项技能中,数据挖掘排名第一.那么数据挖掘是什么?数据挖掘是从大量数据(包括文本)中挖掘出隐含的.先前未知的.对决策有潜在价值的关系.模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法.工具和过程.数据挖掘有助于企业发现业务的趋势,揭示已知的事实,预测未知的结果,因此"数据挖掘"已成为企业保持竞争力的必要方法. 但跟国外相比,由于我国信息化程度不太

《Python数据分析与挖掘实战》一第2章 Python数据分析简介

第2章 Python数据分析简介 Python是一门简单易学且功能强大的编程语言.它拥有高效的高级数据结构,并且能够用简单而又高效的方式进行面向对象编程.Python优雅的语法和动态类型,再结合它的解释性,使其在许多领域成为编写脚本或开发应用程序的理想语言. 要认识Python,首先得明确一点,Python是一门编程语言!这就意味着,原则上来说,它能够完成Matlab能够做的所有事情(因为大不了从头开始编写),而且在大多数情况下,同样功能的Python代码会比Matlab代码更加简洁.易懂:另一

《Python数据分析与挖掘实战》一3.3 Python主要数据探索函数

3.3 Python主要数据探索函数 Python中用于数据探索的库主要是Pandas(数据分析)和Matplotlib(数据可视化).其中,Pandas提供了大量的与数据探索相关的函数,这些数据探索函数可大致分为统计特征函数与统计作图函数,而作图函数依赖于Matplotlib,所以往往又会跟Matplotlib结合在一起使用.本节对Pandas中主要的统计特征函数与统计作图函数进行介绍,并举例以方便理解. 3.3.1 基本统计特征函数 统计特征函数用于计算数据的均值.方差.标准差.分位数.相关

《Python数据分析与挖掘实战》一2.2 Python使用入门

2.2 Python使用入门 限于篇幅,本书不可能详细地讲解Python的使用,而只能是针对本书涉及的数据挖掘案例所用到的代码进行基本讲解.如果读者是初步接触Python,并且用Python的目的就是数据挖掘,那么相信本节的介绍对你来说是比较充足的.如果读者需要进一步了解Python,或者需要运行更加复杂的任务,那么本书是不够的(例如,本书没有谈及到面向对象编程),请读者自行阅读相应的Python教程. 2.2.1 运行方式 本节示例代码使用的是Python 2.7.运行Python代码有两种方

《Python数据分析与挖掘实战》一3.1 数据质量分析

3.1 数据质量分析 数据质量分析是数据挖掘中数据准备过程的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础,没有可信的数据,数据挖掘构建的模型将是空中楼阁. 数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据.在常见的数据挖掘工作中,脏数据包括如下内容. 缺失值. 异常值. 不一致的值. 重复数据及含有特殊符号(如#.¥.*)的数据. 本小节将主要对数据中的缺失值.异常值和一致性进行分析. 3.1.1 缺失值分析

《Python数据分析与挖掘实战》一3.4 小结

3.4 小结 本章从应用的角度出发,从数据质量分析和数据特征分析两个方面对数据进行探索分析,最后介绍了Python常用的数据探索函数及用例.数据质量分析要求我们拿到数据后先检测是否存在缺失值和异常值:数据特征分析要求我们在数据挖掘建模前,通过频率分布分析.对比分析.帕累托分析.周期性分析.相关性分析等方法,对采集的样本数据的特征规律进行分析,以了解数据的规律和趋势,为数据挖掘的后续环节提供支持. 要特别说明的是,在数据可视化中,由于主要使用Pandas作为数据探索和分析的工具,因此我们介绍的作图

《Python数据分析与挖掘实战》一3.2 数据特征分析

3.2 数据特征分析 对数据进行质量分析以后,接下来可通过绘制图表.计算某些特征量等手段进行数据的特征分析. 3.2.1 分布分析 分布分析能揭示数据的分布特征和分布类型.对于定量数据,欲了解其分布形式是对称的还是非对称的,发现某些特大或特小的可疑值,可通过绘制频率分布表.绘制频率分布直方图.绘制茎叶图进行直观地分析:对于定性分类数据,可用饼图和条形图直观地显示分布情况.1.定量数据的分布分析对于定量变量而言,选择"组数"和"组宽"是做频率分布分析时最主要的问题,一