数据挖掘与数据化运营实战.导读

 本书是目前有关数据挖掘在数据化运营实践领域比较全面和系统的著作,也是诸多数据挖掘书籍中为数不多的穿插大量真实的实践应用案例和场景的著作,更是创造性地针对数据化运营中不同分析挖掘课题类型,推出一一对应的分析思路集锦和相应的分析技巧集成,为读者提供“菜单化”实战锦囊的著作。作者结合自己数据化运营实践中大量的项目经验,用通俗易懂的“非技术”语言和大量活泼生动的案例,围绕数据分析挖掘中的思路、方法、技巧与应用,全方位整理、总结、分享,帮助读者深刻领会和掌握“以业务为核心,以思路为重点,以分析技术为辅佐”的数据挖掘实践应用宝典。

    全书共19章,分为三个部分:基础篇(第1~4章)系统介绍了数据分析挖掘和数据化运营的相关背景、数据化运营中“协调配合”的核心,以及实践中常见分析项目类型;实战篇(第6~13章)主要介绍实践中常见的分析挖掘技术的实用技巧,并对大量的实践案例进行了全程分享展示;思想意识篇(第5章,第14~19章)主要是有关数据分析师的责任、意识、思维的培养和提升的总结和探索,以及一些有效的项目质控制度和经典的方法论介绍。

推 荐 序

    所谓,自知者明。

    一个数据分析师,在面对海量数据时,偶尔把自己也当做对象去分析、思考、总结,才能成为一位有那么点儿味道的数据分析师,才能不断地审视、提升分析水平,才能在数据分析的道路上走得更远。

    本书就是作者卢辉对过去10年数据挖掘职业生涯的自省、总结、提炼。

    以前看的数据挖掘书籍,很难看到国内企业的完整实例。而本书分享的数据化运营实战案例都是来自阿里巴巴B2B近3年来的商业实践,
有立竿见影的案例,也有充满了波折和反复的案例。面对这些实战中的挫折和曲折,作者分享了如何调整思路、调整方法,如何与业务方一起寻找新方案,最终如何达成满意的商业应用效果。这些分享都非常真实、非常可贵,相信这些完整的实战案例将给你全新的阅读体验,还你一个真实清楚的有关数据挖掘商业应用的原貌,也会对读者今后的数据挖掘商业实践起到很好的启迪和参考作用。

    从这个角度看,本书就是作者摸索出的一系列有关数据挖掘和数据化运营的规律,是作者对数据分析师有效工作方法的框架和总结。

    如果你是新入行(或者有兴趣进入数据分析行业)的读者,这本书对你是非常有参考和指导意义的:帮助你尽快入门,尽快成长。如果你是已具有一定工作经验的数据分析专业人士,本书亦可作为一面“镜子”,去引发你对于“自己的思考”、“自己的总结”。

    通过阅读本书,读者朋友们可以问问自己:

     数据分析挖掘的技巧,掌握了多少?

     书中的实战案例,有实操过吗?

     数据分析师对分析/数据的态度,你是否具备?

     如何有效管理团队?

    如果上述某些方面你没有想过,这本书会给你有意义的启迪。

    最后,请允许我再唠叨些数据的未来吧:

    关于分析师

    不久的将来,或就是现在,数据分析师将直面新的挑战(也是一次转型机会):在原有分析师职业定位上,为了与业务应用更加贴合,开始逐步融入产品经理“角色”:善于总结、善于提炼、善于推而广之、善于把自己的分析“产品化”。要做到这些,就要求数据分析师必须对数据的理解更透彻,对商业的理解更深入。

    在成熟阶段,数据分析师们将是一群具备了商业理解、数据分析、商业应用思考这三大核心能力的综合体。

    关于数据质量

    在数据化运营道路上,有不少难题亟待解决。其中最棘手、最突出的就是数据质量。

    企业的数据化商业实践中,“数据给自己用”与“数据给别人去用”是两个完全不同难度的课题,好比在家做几道家常菜和开餐厅,后者对于口味质量更为严格苛刻,食客们的眼睛都盯着呢。

    这本书写了“自己使用数据、分析数据”的心得;在未来,当数据可以很容易地被大家使用的时候,我们会发现数据的力量已经渗透到每个人的决策环节里了。

车品觉

阿里巴巴数据委员会会长

 

前  言

为什么要写这本书

    自从2002年第一次接触 “数据挖掘”(Data Mining)这个新名词以来,转眼之间我已经在数据挖掘商业应用相关领域度过了11年。这11年里我既见识了国外数据挖掘商业应用如火如荼地开展;又经历了从21世纪开始,国内企业在数据挖掘商业应用中的摸索起步,到如今方兴未艾的局面;更有幸在经历了传统行业的数据挖掘商业应用之后,投身到互联网行业(当今数据分析商业应用热火朝天、发展最快,并且对数据和数据挖掘的商业应用依赖性最强的行业)的数据挖掘商业实践中。这11年是我职业生涯中最为重要的一段时光,从个人生存的角度来说,我找到了谋生和养家糊口的饭碗—数据挖掘工作;从个人归属的角度来说,我很幸运地碰到了职业与兴趣的重合点。

    在国内,“数据挖掘”作为一门复合型应用学科,其在商业领域的实践应用及推广只有十几年的时间,在此期间,国内虽然陆续出版了一些相关的书籍,但是绝大多数都是基于理论或者国外经验来阐述的,少有针对国内企业相关商业实战的详细介绍和分享,更缺乏从数据分析师的角度对商业实战所进行的总结和归纳。因此,从商业应用出发,基于大量的商业实战案例而不是基于理论探讨的数据挖掘应用书籍成为当今图书市场和广大“数据挖掘”学习者的共同需求。

    同时,在有幸与数据挖掘商业实践相伴11年之后,我也想稍微放慢些脚步,正如一段长途跋涉之后需要停下脚步,整理一路经历的收获和感悟一样,我希望将自己一路走来的心得与体会、经验与教训、挫折与成绩整理出来。

    基于以上原因,我决定从数据挖掘的商业需求和商业实战出发,结合我10多年来在不同行业(尤其是最近4年在互联网行业)的大量数据挖掘商业实战项目,将自己这些年来积累的经验和总结分享出来,希望能够起到抛砖引玉的作用,为对数据挖掘商业实践感兴趣的朋友、爱好者、数据分析师提供点滴的参考和借鉴。同时,鉴于“数据化运营”在当今大数据时代已经成为众多(以后必将越来越多)现代企业的普遍经营战略,相信本书所分享的大量有关数据化运营的商业实践项目也可以为企业的管理层、决策层提供一定程度的参考和借鉴。

    我相信,本书总结的心得与体会,可以推动自己今后的工作,会成为我的财富;同时,这些心得与体会对于部分数据分析师来说也可以起到不同程度的参考和借鉴作用;对于广大对数据挖掘商业应用感兴趣的初学者来说也未尝不是一种宝贵经验。

    我是从机械制造工艺与设备这个与“数据挖掘”八竿子打不着的专业转行到数据挖掘商业应用行业的,这与目前国内绝大多数的数据分析挖掘专业人士的背景有较大差别(国内绝大多数数据分析挖掘专业人士主要来自统计专业、数学专业或者计算机专业)。我的职业道路很曲折,之所以放弃了自己没兴趣的机械制造工艺与设备专业,是因为自己喜欢市场营销。有幸在国外学习市场营销专业时了解并亲近了国外市场营销中的核心和基石—市场营销信息学(Marketing Informatics)。当然,这是国外10多年前的说法,换成行业内与时俱进的新说法,就是时下耳熟能详的“数据分析挖掘在市场营销领域的商业实践应用”)。说这么多,其实只是想告诉有缘的对数据挖掘商业实践感兴趣的朋友,
“以业务为核心,以思路为重点,以挖掘技术为辅佐”就是该领域的有效成长之路。

    很多初学者总以为掌握了某些分析软件,就可以成为数据分析师。其实,一个成功的数据挖掘商业实践,核心的因素不是技术,而是业务理解和分析思路。本书自始至终都在力图用大量的事实和案例来证明“以业务为核心,以思路为重点,以挖掘技术为辅佐”才是数据挖掘商业实践成功的宝典。

    另外,现代企业面对大数据时代的数据化运营绝不仅仅是数据分析部门和数据分析师的事情,它需要企业各部门的共同参与,更需要企业决策层的支持和推动。

读者对象

    对数据分析和数据挖掘的商业实践感兴趣的大专院校师生、对其感兴趣的初学者。

    互联网行业对数据分析挖掘商业实践感兴趣的运营人员以及其他专业的人士。

    实施数据化运营的现代企业的运营人员以及其他专业的人士,尤其是企业的管理者、决策者(数据化运营战略的制定者和推动者)。

    各行各业的数据分析师、数据挖掘师。

勘误和支持

    由于作者水平和能力有限,编写时间仓促,不妥之处在所难免,在此恳请读者批评指正。作者有关数据挖掘商业实践应用的专业博客
“数据挖掘 人在旅途”地址为http://shzxqdj.blog.163.com,欢迎读者和数据挖掘商业实践的爱好者不吝赐教。另外,如果您有关于数据挖掘商业实践的任何话题,也可以发送邮件到邮箱 chinadmer@163.com ,期待你们的反馈意见。

如何阅读本书

    本书分为19章。

    第1~4章为基础和背景部分,主要介绍数据分析挖掘和数据化运营的相关背景、数据化运营中“协调配合”的本质,以及实践中常见的分析项目类型。

    第6~13章是数据分析挖掘中的具体技巧和案例分享部分,主要介绍实践中常见的分析挖掘技术的实用技巧,并对大量的实践案例进行了全程分享展示。

    第5章,第14~19章是有关数据分析师的责任、意识、思维的培养和提升的总结与探索,以及一些有效的项目质控制度和经典的方法论。

    本书几乎每章都会用至少一个完整翔实的实战案例来进行说明、反复强化“以业务为核心,以思路为重点,以挖掘技术为辅佐”,希望能给读者留下深刻印象,因为这是数据挖掘商业实践成功的宝典。

致谢

    首先要感谢机械工业出版社华章公司的杨绣国(Lisa)编辑,没有您的首倡和持续的鼓励,我不会想到要写这样一本来自实践的书,也不会顺利地完成这本书。写作过程中,您的帮助让我对“编辑”这个职业有了新的认识,编辑就是作者背后的无名英雄。在本书出版之际,我向Lisa表达我深深的感谢和祝福。同时感谢朱秀英编辑在本书后期编辑过程中付出的辛劳,您的专业、敬业和细心使得书稿中诸多不完善之处得以修正和提高。

    作为一名30多岁才从机械工程师转行,进入数据挖掘及其商业实践的迟到者,我在数据挖掘的道路上一路走来,得到了无数贵人的帮助和提携。

    感谢我的启蒙导师,加拿大Dalhousie
University的数据挖掘课程教授Tony Schellinck。他风趣幽默的授课风格,严谨扎实的专业功底,随手拈来的大量亲身经历的商业实战案例,以及对待学生的耐心和热情,让我作为一名外国学生能有效克服语言和生活环境的挑战,比较顺利地进入数据挖掘的职业发展道路。

    感谢回国后给我第一份专业工作机会的前CCG集团(Communication Central Group)商业智能应用事业部总经理Justin
Jencks。中国通Justin在我们一起共事的那段日子里,果敢放手让我尝试多个跨行业的探索性商业应用项目,给了我许多宝贵的机会,使我迅速熟悉本土市场,积累了不同行业的实战案例,这些对我的专业成长非常重要。

    感谢4年前给我机会,让我得以从传统行业进入互联网行业的阿里巴巴集团ITBU事业部的前商业智能部门总监李红伟(菠萝)。进入互联网行业之后,我才深深懂得作为一名数据分析师,相比传统行业来说,互联网行业有太多的机会可以去尝试不同的项目,去亲历数不清的“一竿子插到底”的落地应用,去学习面对日新月异的需求和挑战。

    在本书的编写过程中,得到了淘宝网的商品推荐高级算法工程师陈凡(微博地址为hppt://weibo.com/bicloud)和阿里巴巴B2B的数据仓库专家蒿亮(微博地址为http://weibo.com/airjam;E-mail:airjam.hao@gmail.com)热情而专业的帮助和支持。陈凡友情编写了本书的3.11节,蒿亮友情编写了本书的1.4.1节和13.1节。

    感谢一路走来,在项目合作和交流中给我帮助和支持的各位前辈、领导、朋友和伙伴,包括:上海第一医药连锁经营有限公司总经理顾咏晟先生、新华信国际信息咨询北京有限公司副总裁欧万德先生(Alvin)、上海联都集团的创始人冯铁军先生、上海通方管理咨询有限公司总经理李步峰女士和总监张国安先生、鼎和保险公司的张霖霏先生、盛大文学的数据分析经理张仙鹤先生、途牛网高级运营专家焦延伍先生,以及来自阿里巴巴的数据分析团队的领导和伙伴(资深总监车品觉先生、高级专家范国栋先生、资深经理张高峰先生、数据分析专家樊宁先生、资深数据分析师曹俊杰先生、数据分析师宫尚宝先生,等等,尤其要感谢阿里巴巴数据委员会会长车品觉老师在百忙中热情地为本书作推荐序,并在序言里为广大读者分享了数据分析师当前面临的最新机遇和挑战),以及这个仓促列出的名单之外的更多前辈、领导、朋友和伙伴。

    感谢我的父母、姐姐、姐夫和外甥,他们给予了我一贯的支持和鼓励。

    我将把深深的感谢给予我的妻子王艳和女儿露璐。露璐虽然只是初中一年级的学生,但是在本书的写作过程中,她多次主动放弃外出玩耍,帮我改稿,给我提建议,给我鼓励,甚至还为本书设计了一款封面,在此向露璐同学表达我衷心的感谢!而我的妻子,则将家里的一切事情打理得井井有条,使我可以将充分的时间和精力投入本书的写作中。谨以此书献给她们!

卢辉

中国
杭州

第1章 什么是数据化运营 / 1

1.1 现代营销理论的发展历程 / 2

1.1.1 从4P到4C / 2

1.1.2 从4C到3P3C / 3

1.2 数据化运营的主要内容 / 5

1.3 为什么要数据化运营 / 7

1.4 数据化运营的必要条件 / 8

1.4.1 企业级海量数据存储的实现 / 8

1.4.2 精细化运营的需求 / 10

1.4.3 数据分析和数据挖掘技术的有效应用 /
11

1.4.4 企业决策层的倡导与持续支持 / 11

1.5 数据化运营的新现象与新发展 / 12

1.6 关于互联网和电子商务的最新数据 / 14

第2章 数据挖掘概述 / 15

2.1 数据挖掘的发展历史 / 16

2.2 统计分析与数据挖掘的主要区别 / 16

2.3 数据挖掘的主要成熟技术以及在数据化运营中的主要应用 / 18

2.3.1 决策树 / 18

2.3.2 神经网络 / 19

2.3.3 回归 / 21

2.3.4 关联规则 / 22

2.3.5 聚类 / 23

2.3.6 贝叶斯分类方法 / 24

2.3.7 支持向量机 / 25

2.3.8 主成分分析 / 26

2.3.9 假设检验 / 27

2.4 互联网行业数据挖掘应用的特点 / 28

第3章 数据化运营中常见的数据分析项目类型 / 30

3.1 目标客户的特征分析 / 31

3.2 目标客户的预测(响应、分类)模型 /
32

3.3 运营群体的活跃度定义 / 33

3.4 用户路径分析 / 34

3.5 交叉销售模型 / 35

3.6 信息质量模型 / 37

3.7 服务保障模型 / 39

3.8 用户(买家、卖家)分层模型 / 40

3.9 卖家(买家)交易模型 / 44

3.10 信用风险模型 / 44

3.11 商品推荐模型 / 45

3.11.1 商品推荐介绍 / 45

3.11.2 关联规则 / 45

3.11.3 协同过滤算法 / 50

3.11.4 商品推荐模型总结 / 54

3.12 数据产品 / 55

3.13 决策支持 / 56

 

时间: 2024-10-30 13:41:17

数据挖掘与数据化运营实战.导读的相关文章

数据挖掘与数据化运营实战

大数据技术丛书 数据挖掘与数据化运营实战:思路.方法.技巧与应用 卢辉 著 图书在版编目(CIP)数据 数据挖掘与数据化运营实战:思路.方法.技巧与应用 / 卢辉著.-北京:机械工业出版社,2013.6 (大数据技术丛书) ISBN 978-7-111-42650-9 I. 数- II. 卢- III. 数据采集 IV. TP274 中国版本图书馆CIP数据核字(2013)第111479号 版权所有·侵权必究 封底无防伪标均为盗版 本书法律顾问 北京市展达律师事务所     本书是目前有关数据挖

数据挖掘与数据化运营实战. 2.4 互联网行业数据挖掘应用的特点

2.4 互联网行业数据挖掘应用的特点 相对于传统行业而言,互联网行业的数据挖掘和数据化运营有如下的一些主要特点: 数据的海量性.互联网行业相比传统行业第一个区别就是收集.存储的数据是海量的,这一方面是因为互联网的使用已经成为普通人日常生活和工作中不可或缺的一部分,另一方面更是因为用户网络行为的每一步都会被作为网络日志记录下来.海量的数据.海量的字段.海量的信息,尤其是海量的字段,使得分析之前对于分析字段的挑选和排查工作显得无比重要,无以复加.如何大浪淘沙挑选变量则为重中之重,对此很难一言以蔽之的

数据挖掘与数据化运营实战. 2.2 统计分析与数据挖掘的主要区别

2.2 统计分析与数据挖掘的主要区别 统计分析与数据挖掘有什么区别呢?从实践应用和商业实战的角度来看,这个问题并没有很大的意义,正如"不管白猫还是黑猫,抓住老鼠才是好猫"一样,在企业的商业实战中,数据分析师分析问题.解决问题时,首先考虑的是思路,其次才会对与思路匹配的分析挖掘技术进行筛选,而不是先考虑到底是用统计技术还是用数据挖掘技术来解决这个问题. 从两者的理论来源来看,它们在很多情况下都是同根同源的.比如,在属于典型的数据挖掘技术的决策树里,CART.CHAID等理论和方法都是基于

数据挖掘与数据化运营实战. 2.3 数据挖掘的主要成熟技术以及在数据化运营中的主要应用

2.3 数据挖掘的主要成熟技术以及在数据化运营中的主要应用 2.3.1 决策树 决策树(Decision Tree)是一种非常成熟的.普遍采用的数据挖掘技术.之所以称为树,是因为其建模过程类似一棵树的成长过程,即从根部开始,到树干,到分枝,再到细枝末节的分叉,最终生长出一片片的树叶.在决策树里,所分析的数据样本先是集成为一个树根,然后经过层层分枝,最终形成若干个结点,每个结点代表一个结论. 决策树算法之所以在数据分析挖掘应用中如此流行,主要原因在于决策树的构造不需要任何领域的知识,很适合探索式的

数据挖掘与数据化运营实战. 1.2 数据化运营的主要内容

1.2 数据化运营的主要内容 虽然目前企业界和学术界对于"数据化运营"的定义没有达成共识,但这并不妨碍"数据化运营"思想和实践在当今企业界尤其是互联网行业如火如荼地展开.阿里巴巴集团早在2010年就已经在全集团范围内正式提出了"数据化运营"的战略方针并逐步实施数据化运营,腾讯公司也在"2012年腾讯智慧上海主题日"高调宣布"大数据化运营的黄金时期已经到来,如何整合这些数据成为未来的关键任务". 综合业界尤其

数据挖掘与数据化运营实战. 1.3 为什么要数据化运营

1.3 为什么要数据化运营 数据化运营首先是现代企业竞争白热化.商业环境变成以消费者为主的"买方市场"等一系列竞争因素所呼唤的管理革命和技术革命.中国有句古语"穷则思变",当传统的营销手段.运营方法已经被同行普遍采用,当常规的营销技术.运营方法已经很难明显提升企业的运营效率时,竞争必然呼唤革命性的改变去设法提升企业的运营效率,从而提升企业的市场竞争力.时势造英雄,生逢其时的"数据化运营"恰如及时雨,登上了大数据时代企业运营的大舞台,在互联网运营的

数据挖掘与数据化运营实战. 3.2 目标客户的预测(响应、分类)模型

3.2 目标客户的预测(响应.分类)模型 这里的预测(响应.分类)模型包括流失预警模型.付费预测模型.续费预测模型.运营活动响应模型等. 预测(响应.分类)模型是数据挖掘中最常用的一种模型类型,几乎成了数据挖掘技术应用的一个主要代名词.很多书籍介绍到数据挖掘的技术和应用,首先都会列举预测(响应.分类)模型,主要的原因可能是响应模型的核心就是响应概率,而响应概率其实就是我们在第1章中介绍的数据化运营六要素里的核心要素-概率(Probability),数据化运营6要素的核心是以数据分析挖掘支撑的目标

数据挖掘与数据化运营实战. 3.6 信息质量模型

3.6 信息质量模型 信息质量模型在互联网行业和互联网数据化运营中也是有着广泛基础性应用的.具体来说,电商行业和电商平台连接买卖双方最直接.最关键的纽带就是海量的商品目录.商品Offer.商品展示等,无论是B2C(如当当网.凡客网),还是C2C(如淘宝网),或者是B2B(如阿里巴巴),只要是以商业为目的,以交易为目的的,都需要采用有效手段去提升海量商业信息(商品目录.商品Offer.商品展示等)的质量和结构,从而促进交易.在同等条件下,一个要素齐备.布局合理.界面友好的网上店铺或商品展示一定比不

数据挖掘与数据化运营实战. 1.4 数据化运营的必要条件

1.4 数据化运营的必要条件 虽然从上面的分析可以看出,数据化运营有如此多的优越性,但并不是每个企业都可以采取这种新战略和新管理制度,也不是每个企业都可以从中受益.个中原因在于成功的数据化运营必须依赖几个重要的前提条件. 1.4.1 企业级海量数据存储的实现 21世纪核心的竞争就是数据的竞争,2012年3月29日,美国奥巴马政府正式宣布了"大数据的研究和发展计划"(Big Data Research and Development Initiative),该计划旨在通过提高我们从大型复