《python 与数据挖掘 》一第1章 数据挖掘概述 1.1 数据挖掘简介

本节书摘来自华章出版社《python 与数据挖掘 》一书中的第1章,第1.1节,作者张良均 杨海宏 何子健 杨 征,更多章节内容可以访问“华章计算机”公众号查看。

第1章

数据挖掘概述

广义的数据挖掘是指针对收集的大规模数据,应用整套科学工具和挖掘技术(如数据、计算、可视化、分析、统计、实验、问题定义、建模与验证等),从数据之中发现隐含的、对决策有参考意义的信息、价值和趋势。因此,数据挖掘是一个横跨多学科的计算机科学分支。强调它隶属计算机科学范畴,是希望读者认识到这个领域的核心需求,尽早摆脱对编程实现的恐惧,避免陷入“数据挖掘只需将模型或算法套用于数据集之上”的误区。这也是本书的写作目的之一。

1.1 数据挖掘简介

随着计算机技术的全面发展,企业生产、收集、存储和处理数据的能力大大提高,数据量与日俱增。数据的积累实质上是企业的经验和业务的沉淀。越来越多的企业引入“数据思维”——不只是依赖于数据的统计分析,更强调对数据进行挖掘,期待从这一“未来世界的石油”中发现潜在的价值。这一迫切的“开采”需求在世界范围内酝酿了一次“大数据”变革。
数据挖掘的确是21世纪最具话题性的技术之一,包含数据预处理、算法应用、模型评价、结果检验等多个部分,并依靠其丰富的内涵向外延伸出数据分析、数据ETL、机器学习等多个领域。

时间: 2024-10-14 21:51:30

《python 与数据挖掘 》一第1章 数据挖掘概述 1.1 数据挖掘简介的相关文章

《Cadence 16.6电路设计与仿真从入门到精通》——第1章 Cadence概述1.1 Cadence简介 方块

第1章 Cadence概述 Cadence 16.6电路设计与仿真从入门到精通 内容指南 Cadence为挑战简短.复杂.高速芯片封装设计,推出了以Windows XP的操作平台为主的Cadence SPB 16.6. 本章将从Cadence的功能特点及发展历史讲起,介绍Cadence SPB 16.6的安装.界面.使用环境,以使读者能对该软件有一个大致的了解. 知识重点 Cadence简介 Cadence软件的安装 Cadence SPB 16.6的启动 1.1 Cadence简介 方块 Ca

《深入分析GCC 》——第1章 GCC概述1.1 GCC的产生与发展

第1章 GCC概述 本章主要对GCC的发展过程及GCC的特点进行简介,并给出了本书的主要内容简介. 1.1 GCC的产生与发展 GCC(GNU Compiler Collection)是GNU工程(GNU Project)中的核心工具软件,其官方网址为https://gcc.gnu.org/.GCC支持多种前端的编程语言,包括C.C++.Java.Ada和Fortran等,其编译生成的目标代码可以在几乎所有的处理器平台上运行,是目前使用最广泛的编译系统之一.GCC遵循GNU GPL(GNU Pu

《MATLAB 7.0从入门到精通(修订版)》——第1章 MATLAB概述 1.1 MATLAB 7.0简介

第1章 MATLAB概述 MATLAB是一种高效的工程计算语言,它将计算.可视化和编程等功能集于一个易于使用的环境.在MATLAB环境中描述问题及编制求解问题的程序时,用户可以按照符合人们科学思维的方式和数学表达习惯的语言形式来书写程序.其典型应用主要包括以下几个方面: 数学计算: 算法开发: 数据采集: 系统建模和仿真: 数据分析和可视化: 科学和工程绘图: 应用软件开发(包括用户界面). MATLAB是一个交互式系统(写程序与执行命令同步),其基本的数据元素是没有维数限制的阵列.这使得用户可

《Cisco VPN完全配置指南》一第1章 VPN概述1.1 流量问题

第1章 VPN概述 Cisco VPN完全配置指南 这一章介绍了虚拟专用网(VPN)的概念和为什么使用它们.我考察了业务量通过公网发送时产生的问题,以及VPN如何做才可以保护这些流量.我介绍了VPN的连接方法.VPN的类型.当使用VPN时要考虑的事情.VPN的组件.VPN的设计和问题.VPN实施的例子和选择一个VPN实施类型时要考虑的问题.本书其他章节扩展了这里谈到的这些主题. 1.1 流量问题 Cisco VPN完全配置指南 VPN最初开发的主要目的是处理将明文数据通过网络进行传输时的安全问题

《VMware Virtual SAN权威指南》一第1章 VSAN概述

第1章 VSAN概述 本章将把你带入软件定义的数据中心(SDDC)的世界,不过我们将主要关注存储方面.本章首先讨论软件定义的数据中心的基本前提,随后深入到软件定义的存储的概念及其相关的解决方案,例如服务器存储区域网络(Server SAN)以及超融合基础架构解决方案.

《VMware Virtual SAN权威指南(原书第2版)》一第1章 VSAN概述

第1章 VSAN概述本章将把你带入软件定义的数据中心(SDDC)的世界,不过我们将主要关注存储方面.本章首先讨论软件定义的数据中心的基本前提,随后深入到软件定义的存储的概念及其相关的解决方案,例如服务器存储区域网络(Server SAN)以及超融合基础架构解决方案.

《HFSS电磁仿真设计从入门到精通》一第1章 HFSS概述

第1章 HFSS概述 HFSS电磁仿真设计从入门到精通 HFSS(High Frequency Simulator Structure)是原美国Ansoft公司开发的全波三维电磁仿真软件,其功能强大.界面友好.计算结果准确,是业界公认的三维电磁场设计和分析的工业标准.2008年7月,Ansoft公司被Ansys公司收购,现在HFSS归属于Ansys旗下的电磁自动化设计产品,其当前最新版本为13.0.本章将向读者介绍HFSS的主要功能和HFSS的设计流程.

《计算机视觉:模型、学习和推理》——第2章 概率概述 2.1 随机变量

第2章 概率概述 本章简要回顾概率论.这些知识相对简单而且彼此独立.然而,它们结合在一起构成了一种描述不确定性的强大语言. 2.1 随机变量 随机变量x表示一个不确定的数量.该变量可以表示一个实验的结果(例如,抛硬币)或波动特性的真实量度(例如,测量温度).如果我们观察几个实例{xi}Ii=1,它可能在每一个场合取不同的值.然而,一些值可能比其他值更容易出现.这种信息是由随机变量的概率分布Pr(x)决定的.随机变量可以是离散的或连续的.离散变量从一组预先确定的集合中取值.这组值可能是有序的(掷骰

《精通CFD工程仿真与案例实战---FLUENT GAMBIT ICEM CFD Tecplot》——第 1 章CFD概述

第 1 章CFD概述 精通CFD工程仿真与案例实战---FLUENT GAMBIT ICEM CFD Tecplot本文仅用于学习和交流目的,不代表异步社区观点.非商业转载请注明作译者.出处,并保留本文的原始链接.

《精通CFD动网格工程仿真与案例实战》——第 1 章 FLUENT概述 1.1 软件介绍

第 1 章 FLUENT概述 1.1 软件介绍 精通CFD动网格工程仿真与案例实战1.1.1 概述FLUENT软件是目前国际上比较流行的大型商用CFD软件包,它可以求解流体的流动.湍流.传热.多相流.相变.化学反应.气动噪声等物理现象.由于其具有先进的数值算法.丰富的物理模型以及强大的前后置处理功能,使得其市场占有率多年来一直保持全球第一位.其应用范围非常广泛,涉及航空航天.船舶.汽车.能源.化工.水利.家电.生物医学等.如上海超级计算中心.GE.Intel.Honeywell.Boeing.C