深入浅出:如何从0开始学习大数据挖掘分析?

最近有很多人咨询,想学习大数据,但不知道怎么入手,从哪里开始学习,需要学习哪些东西?对于一个初学者,学习大数据挖掘分析的思路逻辑是什么?本文就梳理了如何从0开始学习大数据挖掘分析,学习的步骤思路,可以给大家一个学习的建议。

很多人认为数据挖掘需要掌握复杂高深的算法,需要掌握技术开发,才能把数据挖掘分析做好,实际上并非这样。如果钻入复杂算法和技术开发,只能让你走火入魔,越走越费劲,并且效果不大。在公司实际工作中,最好的大数据挖掘工程师一定是最熟悉和理解业务的人。对于大数据挖掘的学习心得,作者认为学习数据挖掘一定要结合实际业务背景、案例背景来学习,这样才是以解决问题为导向的学习方法。那么,大体上,大数据挖掘分析经典案例有以下几种:

  1. 预测产品未来一段时间用户是否会流失,流失情况怎么样;
  2. 公司做了某个促销活动,预估活动效果怎么样,用户接受度如何;
  3. 评估用户信用度好坏;
  4. 对现有客户市场进行细分,到底哪些客户才是目标客群;
  5. 产品上线投放市场后,用户转化率如何,到底哪些运营策略最有效;
  6. 运营做了很多工作,公司资源也投了很多,怎么提升产品投入产出比;
  7. 一些用户购买了很多商品后,哪些商品同时被购买的几率高;
  8. 预测产品未来一年的销量及收益。。。。

大数据挖掘要做的就是把上述类似的商业运营问题转化为数据挖掘问题。

一、如何将商业运营问题转化为大数据挖掘问题

那么,问题来了,我们该如何把上述的商业运营问题转化为数据挖掘问题?可以对数据挖掘问题进行细分,分为四类问题:分类问题、聚类问题、关联问题、预测问题。

1、分类问题

用户流失率、促销活动响应、评估用户度都属于数据挖掘的分类问题,我们需要掌握分类的特点,知道什么是有监督学习,掌握常见的分类方法:决策树、贝叶斯、KNN、支持向量机、神经网络和逻辑回归等。

2、聚类问题

细分市场、细分客户群体都属于数据挖掘的聚类问题,我们要掌握聚类特点,知道无监督学习,了解常见的聚类算法,例如划分聚类、层次聚类、密度聚类、网格聚类、基于模型聚类等。

3、关联问题

交叉销售问题等属于关联问题,关联分析也叫购物篮分析,我们要掌握常见的关联分析算法:Aprior算法、Carma算法,序列算法等。

4、预测问题

我们要掌握简单线性回归分析、多重线性回归分析、时间序列等。

二、用何种工具实操大数据挖掘

能实现数据挖掘的工具和途径实在太多,SPSS、SAS、Python、R等等都可以,但是我们需要掌握哪个或者说要掌握哪几个,才算学会了数据挖掘?这需要看你所处的层次和想要进阶的路径是怎样的。

第一层级:达到理解入门层次

了解统计学和数据库即可。

第二层级:达到初级职场应用层次

数据库+统计学+SPSS(也可以是SPSS代替软件)

第三层级:达到中级职场应用层次

SAS或R

第四层级:达到数据挖掘师层次

SAS或R+Python(或其他编程语言)

三、如何利用Python学习大数据挖掘

只要能解决实际问题,用什么工具来学习数据挖掘都是无所谓,这里首推Python。那该如何利用Python来学习数据挖掘?需要掌握Python中的哪些知识?

1、Pandas库的操作

Panda是数据分析特别重要的一个库,我们要掌握以下三点:

  • pandas 分组计算;
  • pandas 索引与多重索引;

索引比较难,但是却是非常重要的

  • pandas 多表操作与数据透视表

2、numpy数值计算

numpy数据计算主要应用是在数据挖掘,对于以后的机器学习,深度学习,这也是一个必须掌握的库,我们要掌握以下内容:

  • Numpy array理解;
  • 数组索引操作;
  • 数组计算;

Broadcasting(线性代数里面的知识)

3、数据可视化-matplotlib与seaborn

Matplotib语法

python最基本的可视化工具就是matplotlib。咋一看Matplotlib与matlib有点像,要搞清楚二者的关系是什么,这样学习起来才会比较轻松。

seaborn的使用

seaborn是一个非常漂亮的可视化工具。

pandas绘图功能

前面说过pandas是做数据分析的,但它也提供了一些绘图的API。

4、数据挖掘入门

这部分是最难也是最有意思的一部分,要掌握以下几个部分:

  • 机器学习的定义

在这里跟数据挖掘先不做区别

  • 代价函数的定义
  • Train/Test/Validate
  • Overfitting的定义与避免方法

5、数据挖掘算法

数据挖掘发展到现在,算法已经非常多,下面只需掌握最简单的,最核心的,最常用的算法:

  • 最小二乘算法;
  • 梯度下降;
  • 向量化;
  • 极大似然估计;
  • Logistic Regression;
  • Decision Tree;
  • RandomForesr;
  • XGBoost;

6、数据挖掘实战

通过机器学习里面最著名的库scikit-learn来进行模型的理解。

以上,就是为大家理清的大数据挖掘学习思路逻辑。可是,这还仅仅是开始,在通往数据挖掘师与数据科学家路上,还要学习文本处理与自然语言知识、Linux与Spark的知识、深度学习知识等等,我们要保持持续的兴趣来学习数据挖掘。 

本文作者:刘永平

来源:51CTO

时间: 2025-01-25 12:30:22

深入浅出:如何从0开始学习大数据挖掘分析?的相关文章

政府大数据挖掘首创成果发布

近日,从第二届工商行政管理创新发展高层研讨会上获悉,由国家工商总局.专家组及龙信数据运用大数据挖掘技术构建的"企业发展工商指数"正持续回升至9月已反弹至44.3,预示着四季度我国宏观经济将持续向好. 大数据著名专家维克托在其著作<大数据时代>揭示:"大数据挖掘的核心特点是'全量数据.相关关系.预测预判'."依靠大数据技术,不仅能从海量数据中寻找隐藏其间的关系和联系,更能深层次的认识和挖掘人类社会及科学运行的内在规律,对未来发生的事物作一定的预测.据悉,

大数据挖掘公司Palantir新融资 估值90亿美元

据一名熟知内情的消息人士透露,大数据挖掘分析公司Palantir Technologies即将宣布一个新的融资回合,该融资回合对这家公司的估值将会达到90亿美元左右. Palantir成立于2004年,其客户包括美国中情局(CIA)和联邦调查局(FBI)等.消息人士称,在周四向美国证券交易委员会(SEC)提交的证券文件中,Palantir预计将披露信息称,该公司在这个最新的融资回合中筹集了5800万美元资金.该消息人士透露,Palantir可能会将这个融资回合中的筹资额扩大至最多1亿美元,但目前

大三了,现在才从0开始学习java,有什么好书或秘诀教教小弟

问题描述 大三了,现在才从0开始学习java,有什么好书或秘诀教教小弟.现在才开始学,会不会晚了点? 解决方案 解决方案二:betterlatethannever.解决方案三:Goodgoodstudy,daydayup!解决方案四:<<Thinkinginjava>>解决方案五:你如果看<Thinkinginjava>你一定会后悔的我推荐耿祥义的<java2实用教程第三版>清华大学出版社他教的我java里面的例子很形象代码很规范解决方案六:上verycd下

安防大数据挖掘的利刃:模式识别和深度学习技术

人工智能的概念提出已经很多年,但最近一次大热是在"人机大战"战胜世界围棋高手李世石的Alpha Go.同样,近几年安防行业热门的深度学习和模式识别的概念也频频出现在公众的视野当中,那么它们是如何应用在安防领域中?目前最前沿的应用又有哪些?以下将为您一一解答. 安防大数据挖掘 平安城市从2010年在全国推广至今已经6年,目前各地平安城市建设即将进入扩容改建期,需要更加综合与智能的整体解决方案.公共安防已不再局限于扩张视频监控覆盖广度和密度以及清晰度,而是由扩密度的传统安防时代向注重视频大

一小时了解数据挖掘③:详解大数据挖掘の分类技术

接上2篇:一小时了解数据挖掘①:解析常见的大数据应用案例   一小时了解数据挖掘②:分类算法的应用和成熟案例解析 数据挖掘分类技术 从分类问题的提出至今,已经衍生出了很多具体的分类技术.下面主要简单介绍四种最常用的分类技术,不过因为原理和具体的算法实现及优化不是本书的重点,所以我们尽量用应用人员能够理解的语言来表述这些技术. 在我们学习这些算法之前必须要清楚一点,分类算法不会百分百准确.每个算法在测试集上的运行都会有一个准确率的指标.用不同的算法做成的分类器(Classifier)在不同的数据集

《ANSYS 14.0超级学习手册》一导读

前 言 ANSYS 14.0超级学习手册ANSYS软件是融结构.流体.电场.磁场.声场分析于一体的大型通用有限元分析软件,由世界上著名的有限元分析软件公司--美国ANSYS公司开发,它能与多数CAD软件接口实现数据的共享和交换,是现代产品设计中的高级CAE工具之一. ANSYS软件不断吸收当今世界最新的计算方法与计算机技术,引领世界有限元技术发展的潮流,凭借其强大的功能.可靠的质量,赢得了全球工业界的广泛赞誉,尤其得到各行业CAE用户的认可,在航空航天.铁路运输.石油化工.机械制造.能源.汽车.

《Hadoop与大数据挖掘》一导读

前 言 为什么要写这本书 最早提出"大数据"时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:"数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素.人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来." 早在2012年,大数据(big data)一词已经被广泛提起,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新.那时就有人预计,从2013年至2020年,全球数据规模将增长10倍,每年产生的数据量将由当

【前沿】TensorFlow Pytorch Keras代码实现深度学习大神Hinton NIPS2017 Capsule论文

10月26日,深度学习元老Hinton的NIPS2017 Capsule论文<Dynamic Routing Between Capsules>终于在arxiv上发表.今天相关关于这篇论文的TensorFlow\Pytorch\Keras实现相继开源出来,让我们来看下. 论文地址:https://arxiv.org/pdf/1710.09829.pdf Capsule 是一组神经元,其活动向量(activity vector)表示特定实体类型的实例化参数,如对象或对象部分.我们使用活动向量的长

ArcGIS新一代大数据挖掘技术

Esri自2013年发布了GIS tools for Hadoop,正式加入互联网大数据厂商的行列,至今已经3年了.在这3年中风云变幻,业界技术在不断的发生着变更,Esri的大数据战略也在不断的向前推进. 在刚刚结束的2016Esri空间信息技术开发者大会上,在IT热点技术专场的<ArcGIS平台下的大数据挖掘>,与往年相比,发生了明显的变化.往年因为Esri自身的原因,将大数据限定在空间大数据这个领域里面.但是今年很明显的发现,在ArcGIS的平台上,已将传统的空间二字去掉,使得平台支持的领