大数据建模 需要了解的九大形式

  数据挖掘是利用业务知识从数据中发现和解释知识(或称为模式)的过程,这种知识是以自然或者人工形式创造的新知识。

  当前的数据挖掘形式,是在20世纪">90年代实践领域诞生的,是在集成数据挖掘算法平台发展的支撑下适合商业分析的一种形式。也许是因为数据挖掘源于实践而非 理论,在其过程的理解上不太引人注意。20世纪90年代晚期发展的CRISP-DM,逐渐成为数据挖掘过程的一种标准化过程,被越来越多的数据挖掘实践者 成功运用和遵循。

  虽然CRISP-DM能够指导如何实施数据挖掘,但是它不能解释数据挖掘是什么或者为什么适合这样做。在本文中我将阐述我提出数据挖掘的九种准则或“定律”(其中大多数为实践者所熟知)以及另外其它一些熟知的解释。开始从理论上(不仅仅是描述上)来解释数据挖掘过程。

  我的目的不是评论CRISP-DM,但CRISP-DM的许多概念对于理解数据挖掘是至关重要的,本文也将依赖于CRISP-DM的常见术语。CRISP-DM仅仅是论述这个过程的开始。

  第一,目标律:业务目标是所有数据解决方案的源头。

  它定义了数据挖掘的主题:数据挖掘关注解决业务业问题和实现业务目标。数据挖掘主要不是一种技术,而是一个过程,业务目标是它的的核心。 没有业务目标,没有数据挖掘(不管这种表述是否清楚)。因此这个准则也可以说成:数据挖掘是业务过程。

  第二,知识律:业务知识是数据挖掘过程每一步的核心。

  这里定义了数据挖掘过程的一个关键特征。CRISP-DM的一种朴素的解读是业务知识仅仅作用于数据挖掘过程开始的目标的定义与最后的结果的实施,这将错过数据挖掘过程的一个关键属性,即业务知识是每一步的核心。

  为了方便理解,我使用CRISP-DM阶段来说明:

  商业理解必须基于业务知识,所以数据挖掘目标必须是业务目标的映射(这种映射也基于数据知识和数据挖掘知识);

  数据理解使用业务知识理解与业务问题相关的数据,以及它们是如何相关的;

  数据预处理就是利用业务知识来塑造数据,使得业务问题可以被提出和解答(更详尽的第三条—准备律);

  建模是使用数据挖掘算法创建预测模型,同时解释模型和业务目标的特点,也就是说理解它们之间的业务相关性;

  评估是模型对理解业务的影响;

  实施是将数据挖掘结果作用于业务过程;

  总之,没有业务知识,数据挖掘过程的每一步都是无效的,也没有“纯粹的技术”步骤。 业务知识指导过程产生有益的结果,并使得那些有益的结果得到认可。数据挖掘是一个反复的过程,业务知识是它的核心,驱动着结果的持续改善。

  这背后的原因可以用“鸿沟的表现”(chasm of representation)来解释(Alan Montgomery在20世纪90年代对数据挖掘提出的一个观点)。Montgomery指出数据挖掘目标涉及到现实的业务,然而数据仅能表示现实的一 部分;数据和现实世界是有差距(或“鸿沟”)的。在数据挖掘过程中,业务知识来弥补这一差距,在数据中无论发现什么,只有使用业务知识解释才能显示其重要 性,数据中的任何遗漏必须通过业务知识弥补。只有业务知识才能弥补这种缺失,这是业务知识为什么是数据挖掘过程每一步骤的核心的原因。

  第三,准备律:数据预处理比数据挖掘其他任何一个过程都重要。

  这是数据挖掘著名的格言,数据挖掘项目中最费力的事是数据获取和预处理。非正式估计,其占用项目的时间为50%-80%。最简单的解释可以概括为“数据是困 难的”,经常采用自动化减轻这个“问题”的数据获取、数据清理、数据转换等数据预处理各部分的工作量。虽然自动化技术是有益的,支持者相信这项技术可以减 少数据预处理过程中的大量的工作量,但这也是误解数据预处理在数据挖掘过程中是必须的原因。

  数据预处理的目的是把数据挖掘问题转化为格式化的数据,使得分析技术(如数据挖掘算法)更容易利用它。数据任何形式的变化(包括清理、最大最小值转换、增长 等)意味着问题空间的变化,因此这种分析必须是探索性的。 这是数据预处理重要的原因,并且在数据挖掘过程中占有如此大的工作量,这样数据挖掘者可以从容 地操纵问题空间,使得容易找到适合分析他们的方法。

  有两种方法“塑造”这个问题 空间。第一种方法是将数据转化为可以分析的完全格式化的数据,比如,大多数数据挖掘算法需要单一表格形式的数据,一个记录就是一个样例。数据挖掘者都知道 什么样的算法需要什么样的数据形式,因此可以将数据转化为一个合适的格式。第二种方法是使得数据能够含有业务问题的更多的信息,例如,某些领域的一些数据 挖掘问题,数据挖掘者可以通过业务知识和数据知识知道这些。 通过这些领域的知识,数据挖掘者通过操纵问题空间可能更容易找到一个合适的技术解决方案。

  因此,通过业务知识、数据知识、数据挖掘知识从根本上使得数据预处理更加得心应手。 数据预处理的这些方面并不能通过简单的自动化实现。

  这个定律也解释了一个有疑义的现象,也就是虽然经过数据获取、清理、融合等方式创建一个数据仓库,但是数据预处理仍然是必不可少的,仍然占有数据挖掘过程一 半以上的工作量。此外,就像CRISP-DM展示的那样,即使经过了主要的数据预处理阶段,在创建一个有用的模型的反复过程中,进一步的数据预处理的必要 的。

12下一页

时间: 2024-11-08 18:12:16

大数据建模 需要了解的九大形式的相关文章

指引大数据未来发展方向的九大真理

  笔者总会时不时沉浸在对大数据原则的思索当中,这里讨论的并不是Hadoop与关系数据库或者Mahout与Weka的对抗,而是更具根源性的智慧--将数据作为"新时代货币"的思维方式.不过也许将数据描述成"新时代的石油"更加贴近,或者,我们还需要一种新的比喻更全面地诠释数据的价值与内涵. 比喻本身既非事实也难以证明,但它们确实能够创造出指引我们找到真理的话题.比喻让复杂的概念变得更易理解,正如本文中所引用的经典语录--它们有助于解释大数据的各项基本原则.本文将列举八条

2016年大数据在金融领域的10大趋势

2015 年对于银行和金融业公司来说是一个开局之年,在这一年中他们继续用大数据来帮助他们进行业务和组织架构的演进.现在,放眼2016年将要面对的,我们猜测金融服务公司为了利益最大化进而不断整合大数据环境而言,他们面前的路依旧漫长. 银行家们也正在起草大数据战略,制定入门和随后的用例. 对于银行来说,大数据主要还是围绕提高客户情商,减少风险,符合监管.在可见的未来处于第一梯队的大型金融集团都会继续围绕大数据展开各种动作.在低端市场,一些中小型的公司(经纪.资产管理.区域银行.顾问等)能够更快速的适

全国首部《大数据蓝皮书》指出:中国大数据发展呈现十大新趋势

大数据战略重点实验室研究编著.社会科学文献出版社出版的<大数据蓝皮书:中国大数据发展报告No.1>(简称<大数据蓝皮书>)5月28日正式发布.作为全国首部<大数据蓝皮书>,从制度.技术.产业和学科建设等层面对大数据的发展进行分析与研判,并提出中国大数据发展的十大新趋势. 趋势之一:丰富细致的政策体系助推大数据落地.从中央到地方,更加丰富的配套政策与实施细则将促进大数据加快落地,更多地方政府积极推进大数据发展,并在大数据政用.商用.民用领域打造大数据应用的典范. 趋势之二

专注大数据人才培养 “贵州理工学院-阿里巴巴大数据学院”今秋开学

全国第一所由阿里巴巴和高校合建的大数据学院即将开学.去年12月签约后,"贵州理工学院-阿里巴巴大数据学院"尘埃落定,将成为我国西南腹地培育大数据专业人才的摇篮. 5月25日,贵州理工学院与阿里云宣布"贵州理工学院-阿里巴巴大数据学院"正式启动,将在今年秋季迎来第一批本科学生. "贵州理工学院-阿里巴巴大数据学院"是全国第一所由阿里巴巴与高校联合冠名的大数据人才培养学府,是贵州省人民政府与阿里巴巴战略合作的重要落地项目之一. 大数据学院将按照4年本

大数据如何解决行业挑战?大数据在10个垂直行业中的应用

大数据已经成为过去几年中大部分行业的游戏规则,行业领袖,学者和其他知名的利益相关者都同意这一点, 随着大数据继续渗透到我们的日常生活中,围绕大数据的炒作正在转向实际使用中的真正价值. 虽然了解大数据的价值仍然是一个挑战,但其他实践中的挑战包括资金投入和投资回报率以及相关技能仍然是大数据行业排名前列.Gartner调查显示,75%以上的公司正在投资或计划在未来两年投资大数据. 一般来说,大多数公司都希望有几个大数据项目,公司的主要目标是增强客户体验,但其他目标包括降低成本,更有针对性地进行营销,并

回顾2016年大数据的发展,盘点十大最热门的数据岗位

随着很多大公司对数据分析需求增多,数据相关岗位的人才需求量也越来越大.数据学作为一门学科,已经受到时代的追捧.数据学,或者更准确来说,大数据,在2000年早期还是个冷门,而现在早已成为人们关注的焦点.早在2014年,高德纳咨询公司就预测,到2016年将有73%的公司企业将在大数据项目中投入重金. 2016年的尾声即将到来,我们是时候回顾一下大数据的发展,盘点十大最热门的数据岗位. TOP1 首席数据官(CDO) 三军不可无帅也,所有想在大数据项目中取得成功的公司都需要首席数据官坐镇指挥.2014

大数据面临的挑战:当大数据遭遇云计算

本文讲的是大数据面临的挑战:当大数据遭遇云计算,据IDC的报告,未来十年全球大数据将增加50倍.仅在2011年,我们就将看到1.8ZB(也就是1.8万亿GB)的大数据创建产生.这相当于每位美国人每分钟写3条Tweet,而且还是不停地写2.6976万年.在未来十年,管理数据仓库的服务器的数量将增加10倍以便迎合50倍的大数据增长. 毫无疑问,大数据将挑战企业的存储架构及数据中心基础设施等,也会引发云计算.数据仓库.数据挖掘.商业智能等应用的连锁反应.2011年企业会将更多的多TB(1TB=1000

大数据底层平台公司能做多大?

大数据是企业服务市场中的新兴领域,短短几年时间,大数据概念从兴起到落地,开始在各行各业发挥作用,行业政策频出,技术飞速发展,受到资本追捧. 整个大数据行业可大致分为三层,底层基础平台,中间层通用技术,上层行业应用.接下来,爱分析将按照上述分类,逐步介绍各细分领域的行业现状.未来前景.今天是大数据系列的第一篇--底层基础平台. 底层基础平台主要解决的是数据存储.计算的问题,是整个大数据生态的基石.采集到的数据,首先要能高效.快捷地存起来,才能进行数据分析和数据挖掘. 这一层非常重要,同时也是技术含

运营商发力大数据,实现流量经营向大数据运营的创新转型

未来是一个数据驱动的世界,一切都将被数字化,数字化创新转型将成为各行业应对时代变化和市场竞争的必由之路.Gartner 数据显示,全球数据量每两年翻一倍,每年新产生和复制的数据量将从2013年的4.4ZB增长到2020年的44ZB.IDC报告预测,到2017年,数字化业务上的能力欠缺将使25%的企业失去市场位置,20%的行业领先企业将被2000年以后成立的企业取代. 电信运营商具有发展大数据的先天性优势,电信与媒体市场调研公司Informa Telecoms & Media 在2013年的调查结