大数据分析:数据抽样的终结者

“如果你真的想要了解发生在您企业业务中的真相,你需要大量的非常详细的数据资料。”数据仓库研究院(TDWI)研究主任菲利普?·卢瑟姆在其最新的一份TDWI大数据分析报告中写道。“如果你真的想看一些你从未见过的东西,这有助于您挖掘从未被商业智能分析过的数据。”

这便是大数据分析存在的理由,其是前所未有的。不仅仅是大数据概念的本身提醒着我们,至少我们还可以追溯到21世纪初,“彼时,存储和CPU技术正被百万兆字节的数据所淹没,IT面临着数据的可扩展性危机。”针对大规模和不同的数据集的应用程序中先进的分析技术是前所未有的(如数据挖掘)。这便是大数据分析的出现所带来的划时代的意义了。卢瑟姆说,这是数据可扩展性危机结束的信号。

这给企业带来了前所未有的意义。针对企业所收集的数据进行数据挖掘、数据分析,并在某些情况下作出相关的报告。这就是为什么诸如数据抽样这样的实践方案被视为企业相当务实的必需品。

“你不能把整个数据集都放入到数据挖掘计划中。你必须选择你所需要的数据,必须确保数据的正确性,因为如果你没有投入正确的数据,你的技术可能不奏效。”数据仓库研究院研究员马克?马德森在预测分析研讨会上告诉与会者。

“你可以将您所收集到的数据中的一个很小的比例投入挖掘…概率事件的采样。”他继续说,“但分解会非常罕见,成为非常罕见的事件,使其很难变成样本。”

理想情况下,你要找出所有这些“罕见”事件,他们属于异常现象,如欺诈行为、客户流失和潜在的供应链中断。他们是隐藏在你未分化的数据中的高价值的东西,很难找到。

IBM,微软,甲骨文和Teradata,以及与其他大多数著名的BI和数据仓库(DW)供应商,纷纷开始销售整合了Hadoop的产品。有些甚至大肆宣扬自己实现了无处不在的MapReduce算法。

这些供应商不只是谈论大数据,他们正在谈论大数据结合先进的分析技术,如数据挖掘,统计分析和预测分析。换句话说,他们正在谈论的是大数据分析。

根据数据仓库研究院的研究显示,大数据分析还没有到来;尚未被主流所接受。在数据仓库研究院最近的调查中,超过三分之一(34%)的受访者表示,他们所在的企业结合大数据,实行了某种形式的先进的分析。在大多数情况下,他们仅仅采用非常简便的方法。例如,数据抽样。

数据集成专家PervasiveSoftware公司的大数据产品的高级主管DaveInbar说,事实上,如果企业没有考虑逐步淘汰抽样调查和其他过去的所谓最佳实践的“神器”,他们真的是后知后觉了。

“如果你继续采用数据抽样的方法,你可以实际处理所有数据,但数据的科学性本质上是削弱的。”他说。“在Hadoop的世界,没有任何理由不采用商品硬件、真正的智能软件。在过去,我们采用抽样数据,可能还有经济成本方面的考量原因,或者技术达不到的原因。但在今天,这些原因都不复存在。数据采样在过去是最好的实践方案,但我认为它的时代已经过去了。”

“大海捞针的问题不适合采用样本,所以你这样过分强调训练集,可能会导致问题。”负责信息管理咨询的马德森指出,“最终,运行整个数据集要比紧紧按照统计算法和担心样本更容易。技术可以在出现分配挑战时处理数据的问题,并可以访问统计方法。”

(责任编辑:蒙遗善)

时间: 2024-10-02 13:40:46

大数据分析:数据抽样的终结者的相关文章

《数据科学与大数据分析——数据的发现 分析 可视化与表示》一导读

前 言 数据科学与大数据分析--数据的发现 分析 可视化与表示 大数据可以帮助企业从他们最宝贵的信息资产中挖掘到新的商机,从而创造出新的价值并形成竞争优势.对于企业用户而言,大数据可以帮助提高生产效率.提升产品质量和提供个性化的产品和服务,从而帮助改进客户满意度并提升企业利润率.对于学术界而言,大数据分析提供了一种更加先进的分析手段,可以帮助获取更丰富的分析成果和更深入的洞察力.在许多情况下,大数据分析集合了结构化和非结构化数据的实时获取和查询,开拓了创新和洞察的新路径. 本书将介绍大数据分析中

《数据分析实战:基于EXCEL和SPSS系列工具的实践》一3.4.3 数据抽样

3.4.3 数据抽样 如果数据量比较大,也可以采用数据抽样的方法,SPSS和Modeler都有专门做数据抽样的方法,在EXCEL中也可以实现,比如,可以用随机数函数进行抽样. 以下以SPSS和EXCEL为例来说明如何做数据抽样. 在SPSS中打开数据文件,在"数据"主标签中选择"选择个案",如图3-37所示. 接图3-37,点击"选择个案",如图3-38所示. 在图3-38中,选择"随机个案样本",如图3-39所示. 图3-3

《Spark大数据分析:核心概念、技术及实践》大数据技术一览

本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第1节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问"华章计算机"公众号查看. 大数据技术一览 我们正处在大数据时代.数据不仅是任何组织的命脉,而且在指数级增长.今天所产生的数据比过去几年所产生的数据大好几个数量级.挑战在于如何从数据中获取商业价值.这就是大数据相关技术想要解决的问题.因此,大数据已成为过去几年最热门的技术趋势之一.一些非常活跃的开源项目都与大数据

[重磅]清华大数据产业联合会&quot;应用创新&quot;系列第1讲:大数据分析(46PPT)

2014年11月26日晚,清华大数据产业联合会成立仪式在清华大学舜德楼401室召开,联合会依托于清华大学独特的师资和生源优势.清华大学多个院系和学科在大数据相关领域多年的积累与探索,联合大数据产业链中的优秀龙头企业与创新企业,旨在提供大数据产业链的思维碰撞与资源对接平台,促进产.学.研良性互动,以产业需求带动复合型大数据人才的培养,推动大数据生态系统中的各方合作共赢.会议由联合会秘书长王霞主持. 到场的嘉宾有: 清华大学杨斌副校长,清华大学数据科学研究院执行副院长.清华大数据产业联合会会长韩亦舜

《大数据分析原理与实践》——2.1 大数据分析模型建立方法

2.1 大数据分析模型建立方法 大数据分析模型可以基于传统数据分析方法中的建模方法建立,也可以采取面向大数据的独特方法来建立.为了区分这两种模型建立方法,我们分别简称其为传统建模方法和大数据建模方法.由于这两种模型建立方法存在一些交集(如业务调研.结果校验等),我们采取统一框架来进行介绍,在介绍时区分两种建模方法的不同之处. (1)业务调研 首先需要向业务部门进行调研,了解业务需要解决的问题,将业务问题映射成数据分析工作和任务.对业务的了解无疑是传统建模方法和大数据建模方法都需要的. (2)准备

【大数据干货】轻松处理每天2TB的日志数据,支撑运营团队进行大数据分析挖掘,随时洞察用户个性化需求。

免费开通大数据服务:https://www.aliyun.com/product/odps "用户每天产生的日志量大约在2TB.我们需要将这些海量的数据导入云端,然后分天.分小时的展开数据分析作业,分析结果再导入数据库和报表系统,最终展示在运营人员面前."墨迹天气运维部经理章汉龙介绍,整个过程中数据量庞大,且计算复杂,这对云平台的大数据能力.生态完整性和开放性提出了很高的要求. 关于墨迹天气 北京墨迹风云科技股份有限公司于2010年成立,是一家以"做卓越的天气服务公司&quo

《智能数据时代:企业大数据战略与实战》一第3章 大数据:有所为有所不为3.1 大数据分析最佳实践

第3章 大数据:有所为有所不为 3.1 大数据分析最佳实践 很显然,与任何其他技术或过程一样,大数据问题也有最佳实践.在大多数情况下,最佳实践通常来自多年的测试和测量结果,以此作为基础,不断发展.然而,如今的大数据概念要相对新颖,在推导相关最佳实践的过程中人们总会去依赖并利用此前经过证明的有效方法.尽管如此,当前各种新的最佳实践正如雨后春笋般不断浮现,这意味着我们仍然可以从他人的错误和成功中吸取经验教训并由此判断出哪些才是真正有效的方法. 大数据的革命性特质往往会影响最佳实践,因此今日的最佳到明

《大数据分析原理与实践》一一2.1 大数据分析模型建立方法

2.1 大数据分析模型建立方法 大数据分析模型可以基于传统数据分析方法中的建模方法建立,也可以采取面向大数据的独特方法来建立.为了区分这两种模型建立方法,我们分别简称其为传统建模方法和大数据建模方法.由于这两种模型建立方法存在一些交集(如业务调研.结果校验等),我们采取统一框架来进行介绍,在介绍时区分两种建模方法的不同之处.传统数据分析建模方法与大数据分析建模方法从大数据这个概念提出开始,就有"大数据分析方法与传统数据分析方法同与异"之辩.有的观点认为,传统分析是"因果分析&

解读:大数据分析及其数据来源

当我们谈到大数据分析,首先需要确定数据分析的方向和拟解决的问题,然后才能确定需要的数据和分析范围.大数据驱动的分析主要的挑战不是技术问题,而是方向和组织领导的问题,要确定方向,提出问题,需要对行业做深入的了解.当然,大数据分析最核心的,关于数据的来源更是至关重要的.在数据量非常大的今天,如何以更高的效率获取到分析所需要的数据,如何利用这些数据反应最真实的情况,是业内不断探讨的议题.接下来,小编就带大家来了解下大数据分析及其数据来源. 大数据分析 大数据分析,顾名思义,就是对规模巨大的数据进行分析