数据挖掘七步走

写写我对数据挖掘过程的体会吧!

Step1.商业理解

就是商业问题的理解了,那么如何更好的理解“老大”提出的商业问题困惑呢?我觉得思维导图倒是个不错的选择,当然自己要想更好的理解“老大”的意思还需要进一步的沟通,商业问题的理解关系到这个挖掘项目的价值,甚至成败,所以在这块大家要显得“外向”一些,多交流、多沟通、多了解这个商业问题背后的东东;

step2.字段提取

接下来就是需要提取的字段,也就是数据挖掘的宽表,这点就要和企业的DBA人员多多交流,看数据库中各个维度的表格都有什么字段,主要关联的主键有那些,那么如何选取字段呢?这就需要自己把自己与“老大”共同讨论的思维导图拿出来看看,这样就有提取那些字段的感觉了,这部分大多数的提取是自己对商业问题的感觉或者一些前辈的经验;

Step3.数据的ETL

数据的ETL,这部分一般的时间占数据挖掘项目的70%左右,为什么数据的ETL如此重要呢?万丈高楼平地起,如果连地基都是“豆腐渣工程”的话,那么再华丽的楼房也没人愿意掏腰包;嘿嘿,开个玩笑;数据的ETL主要是一些异常值、空值(miss值)、错误数值的处理,这部分一般需要根据数据自身的分布、简单的统计知识、该字段体现的业务特点、自己的经验进行的,也就是这一部分的处理主要是统计知识+项目经验+业务特点;

Step4.变量选择

建立模型所需要的变量如何选?当然目标变量(Y)一般都是事前设定好的,那么X如何找呢?大多数都是应用相关分析、特征选择、描述性的统计图表(分箱图、散点图等),这里我只想说一句算法是死的,有时候我们根据算法得出来的X对Y没有影响,但在实际的业务中影响却很大,所以大家不要过于依赖算法、工具,我曾经因为这点,被人批了,555~~~~~

Step5.数据挖掘建模

建立数据挖掘模型,这块是许多同行相当痴迷的地方,我也不例外,记得大学毕业去北京的时候,就在咨询公司研究算法什么的,后来经过leader的几次谈话,自己才慢慢走出了误区;一句话,我们追求的是模型带来的效益,所以没那么多时间去玩模型、搞算法;但是作为数据挖掘从业者,最基本的应该是了解各种算法的原理,还有一些数据挖掘模型参数的意义,比如在spss clementine中就有自定义和专家两个供大家选择,所以掌握一些参数的意义也是有必要的,大家可以上网下一些人大数据挖掘的视频教程,里面讲的比较详细;

Step6:模型评估

模型评估,大部分都是借助数据挖掘自带的评估模型来做,什么准确度、收益率等,理论上很完美,实际中就一定有疗效吗?非也!有时候模型跑出来的信息很诡异的,建模人员都无法知道这个结果如何去解读,这时我倒是觉得可以从模型中选取一部分人群来做一下简单的调研,或许能获得更多数据背后的东西,也能为自己的片子多几分数据解读的色彩,何乐而不为呢?

Step7.模型可视化展示

模型可视化展示,可视化一直是一些数据服务公司所追求的东东,也是我们从业人员一种传达信息的方式,对于一个专题的数据挖掘模型,我相信大家都能通过一些图表、表格或者更炫的PPT搞定,打个岔,我常常遇到这样的问题,在对多维度做交叉分析时,因为涉及许多数据维度的钻取而很难展现给决策者,这时可以用水晶易表来做动态的展示,但是遇到更复杂的逻辑呢?大家不难发现现在大部分的数据分析系统或者叫运营体系的分析维度都是作为一个content展现给使用者,从数据从业者的角度来看,这只是从不同维度对数据进行了切割而已,谈不上真正的数据可视化,路漫漫兮修远兮!业务、维度、用户交互三者融合才是王道;

via:数据挖掘与数据分析

From:itongji

时间: 2024-09-14 00:09:58

数据挖掘七步走的相关文章

七步走战略:如何消除内部威胁因素

多年以来,安全工作的主要目标一直关注保护环境的边缘位置--即确保外部人员无法获得访问权并借此实施恶意活动.然而统计数据证明,企业内部存在的风险往往更高.正因为如此,相当一部分合规性法规要求监控系统能够识别并清除内部威胁.根据Forrester公司的统计,58%的安全违规行为源自内部事件或者与业务合作伙伴相关.IBM公司发布的2015年网络安全情报索引亦指出,55%的攻击源自企业内部人员. 在今天的文章中,我们将共同了解ObserveIT公司CEO Mike McKee针对内部威胁因素给出的七步走

古心神:英文SEO站群营销七步走

中介交易 SEO诊断 淘宝客 云主机 技术大厅 作为职业SEO,大家可能跟我一样,在网站的搜索引擎优化经历中使用过成千上万种的方法(这里用夸张的手法形容使用的方法很多^_^),把能想到的和不能想到的(听过,看过的应该不少)都拿来试验过,可能其中有些方法起作用了,有些方法无效,甚至有些方法有副作用,但是具体是哪一个方法起作用,哪一种方式已经无效,绝大部分人并不清楚. 相信做SEO的都知道,中文的魔兽si服,英文的WOW GOLD及其一系列游戏相关的网站优化,竞争有多大,难度有多高.不过,再高的山都

做站“七步走” 网站SEO优化不用愁

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 最近参加了seo培训,把自己所学的知识简单的总结了一下,分了七个部分说明,在这里和大家分享,不当之处,请指正. 第一步:确定目标关键词.什么是目标关键词?通俗的讲,就是你想做什么主题的网站.比如59源码网,是为网友提供源码介绍,整站源码下载的网站,那么就选定源码.源码下载.网站源码下载.关键词的选定最好有重叠的地方,不要选择几个毫不相干的词语

七步走加快网站收录进程

网站内容被搜索引擎收录的数量直接关系到网站的点击量,从而更是影响到网站的排名.因为这个原因,站长们都花大力气去做到站内内容的精致和独特以求能被收录.站长们对提高各自站内内容被收录都各有一定绝招,不过,所谓集思广益,掌握的方法越多肯定是对自己越有好处的,下面我就总结下提高网站被收录率的各种方法. 一.整理本站结构,去除无效链接 不论站长们做的是哪种类型的网站,其站内结构一定要简洁明了,这是做站的站长们必备知识之一.一般的网站在设计时页面层次不要超过三层,页面文件名可以用字母或者数字,但千万不要用很

论坛营销七步走

论坛营销不同与其他的网络营销活动,既要设计有吸引力的主题和内容,鼓励网民自发自主的http://www.aliyun.com/zixun/aggregation/17298.html">传播信息,参与营销活动:另一方面还需要对信息的传播路径和由此形成的网络舆论进行密切监测,实施有效引导,避免传播事态偏离预期轨道,谨防恶意攻击.细分下来,主要包括两个阶段七个步骤. 阶段一:主题策划阶段 步骤一:挖掘营销点(目标客户分析,传播点提炼,事件植入) 对论坛营销点的发掘主要可以从三个方面考虑 1.

网络营销大数据实操七步走

对很多企业来说,大数据的概念已不陌生,但如何在营销中应用大数据仍是说易行难.其实,作为大数据最先落地也最先体现出价值的应用领域,网络营销的数据化之路已有成熟的经验及操作模式. 一.获取全网用户数据 首先需要明确的是,仅有企业数据,即使规模再大,也只是孤岛数据.在收集.打通企业内部的用户数据时,还要与互联网数据统合,才能准确掌握用户在站内站外的全方位的行为,使数据在营销中体现应有的价值.在数据采集阶段,建议在搜集自身各方面数据形成DMP数据平台后,还要与第三方公用DMP数据对接,获取更多的目标人群

SEO优化简单的七步走

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 SEO说白了就是通过优化你的网站,通过非法或正常的手段,让你的网站在各大搜索引擎中排到一个好位置.通过网站优化可以让你的网站在众多网站脱颖而出,坐等用户来光临,优化内部达到很好的用户体验,将用户转化为客户. 1:标题(title) 尽可能控制在35个汉字,不要只是简单的把关键字堆砌,写成一个简短的句子.title的第一个词是最吸引搜索引擎的,

互联网创业成功之道(七):站点基础优化五步走

中介交易 SEO诊断 淘宝客 云主机 技术大厅 一.了解搜索引擎优化 说到搜索引擎优化(Search Engine Optimization,缩写为SEO),就不得不提到搜索引擎营销(SEM),SEM是一种通过搜索引擎来对网站进行推广的营销方式,而搜索引擎优化就是其中的一种,其它方式还包括搜索引擎的竞价排名广告等.由于SEO是通过技术方式来实现,无须付费进行推广,所以对于个人站长来说更实用.本章的重点,就是讲解SEO的实现方式. 1.搜索引擎优化是什么 对网站进行搜索引擎优化,就是针对各种搜索引

主数据三步走,国药一体化基础就靠它

"一家企业要想真正实现服务化.标准化.模块化的,必须要有数据的整合集成,而主数据管理平台是集成数据的重要手段."中国医药集团(简称"国药集团")信息化专家组组长.信息部主任雷万云博士在接受记者采访时指出. 从2005年确立集团编码标准体系,到2010年陆续开始主数据平台一期.二期.三期项目的建设,国药主数据管理平台历久弥新,经过前后8年时间的积累和优化后,三期新功能于2013年7月1日成功上线启用,并稳定运行至今近两个月的时间. 雷万云在个人博客中提到:"