数据准备是大数据分析的无名英雄

随着企业花越来越多的时间来分析数据,清理和准备数据的解决方案将会变得更有价值。

现在大数据是热门话题,你在任何地方与任何人交谈很难不提到大数据。事实上,大数据的术语有点被过度使用,它对不同的人意味着不同的东西,但所有这些定义都有一个共同点,那就是数据!

上面我们说大数据依赖于数据,这似乎很明显,但大数据分析的成功需要的不仅仅是原始数据,还需要好的高质量数据。所以,更准确的说法应该是,大数据的成功需要准备好的数据。对于分析,有句古老的格言,“进来是垃圾,出去也是垃圾”,这意味着如果你把大量参差不齐的数据放到分析解决方案,你将会得到不好的结果。

数据的清理和准备历来都是漫长的艰巨的耗时的过程。当笔者还在Yankee Group公司时,他们迁移CRM系统,在迁移工作之前,该公司花了一年时间来清理现有系统中的记录数据,以确保不会迁移不好的数据。虽然他们做了这么多工作,仍然有很多不良信息被迁移过去。

最近,笔者看到一家被称为Paxata的公司,该公司提供的解决方案可以进行所谓的“自助服务自适应数据准备”。在分析或运营报告工作之前,该技术可以整合、清理和形成数据。市面上很多现有的商业智能产品声称可以简化分析过程,但事实是,大多数数据科学家和数据分析师花费大量时间来为分析准备数据。鉴于此,笔者认为,大多数企业宁愿聘请高薪人才找出数据的含义(+微信关注网络世界),而不是清理数据。

Paxata提供数据整个生命周期的准备,包括探索、清理、更换、形成和发布数据以进行分析。该产品还允许不同的数据团队共享相同的数据集,让不同的团队可以同时编辑和访问多个设备的信息。该产品还是一个管理解决方案,它会追踪项目内的每个步骤,并有完全的重放功能来审查已经完成的更改。

Paxata的用户可以提高对大型数据集的分析生产率,同时最小化数据蔓延的危险。该产品既可作为云服务—确保数据准备的灵活性,也可以作为内部部署的解决方案,它可以整合到Hadoop以更快获取价值。

正如上文所述,大数据现在是一个热门话题,但企业和IT领导者需要明白,分析糟糕的数据意味着糟糕的分析结果,可能会造成错误的商业决策。正因为如此,笔者希望看到数据准备技术会开始像大数据一样热门。

本文作者:佚名

来源:51CTO

时间: 2024-10-08 10:43:31

数据准备是大数据分析的无名英雄的相关文章

《数据科学与大数据分析——数据的发现 分析 可视化与表示》一导读

前 言 数据科学与大数据分析--数据的发现 分析 可视化与表示 大数据可以帮助企业从他们最宝贵的信息资产中挖掘到新的商机,从而创造出新的价值并形成竞争优势.对于企业用户而言,大数据可以帮助提高生产效率.提升产品质量和提供个性化的产品和服务,从而帮助改进客户满意度并提升企业利润率.对于学术界而言,大数据分析提供了一种更加先进的分析手段,可以帮助获取更丰富的分析成果和更深入的洞察力.在许多情况下,大数据分析集合了结构化和非结构化数据的实时获取和查询,开拓了创新和洞察的新路径. 本书将介绍大数据分析中

大数据系列之大数据分析对IT资源的需求

文章讲的是大数据系列之大数据分析对IT资源的需求, 为了准确描述中国大数据市场和技术发展趋势,解析大数据发展的各阶段对IT技术的需求,2013年6月,中桥调研咨询(以下简称中桥)对中国480家最终用户的IT管理者和专业人员,就大数据市场和技术发展趋势展开了调查.中桥首席分析师王丛结合其在欧美数据中心领域十几年的市场调研积累,对中国大数据市场趋势的调查数据进行解析,以诠释中国大数据市场和技术趋势.同时,会通过在线讲座(www.webinars-china.com )和中国读者解读中国大数据市场趋势

大数据系列之大数据分析如何权衡存储

文章讲的是大数据系列之大数据分析如何权衡存储, 系列1:未来24个月市场趋势和IT投入重点 系列2:大数据分析对IT资源的需求 在之前的系列1和2中,我们已就大数据分析的发展趋势以及对IT资源的需求进行了解析.接下来,针对大数据分析的重要一环-存储,中桥将结合市场热门的存储技术如闪存.固态盘等,来从存储性能.数据保护等角度进行分析. 通过前文的相关数据分析,我们已经了解到,随着大数据时代应用数量.应用数据量和使用者数量的增长,系统对存储IOPS以及OLTP和OLAP的要求越来越高.传统存储也越来

数据专家在大数据分析中的作用

大http://www.aliyun.com/zixun/aggregation/13768.html">数据科学家的工作从企业的业务问题开始,下一个步骤是创建分析计划,即一些企业称之为"数据分析计划."当然,你需要考虑到数据科学家的不同专业背景,如有数学界.软件工程.市场营销学.工商管理等等,几乎所有的数据科学家都会从他们的专业领域出发,设置各种技巧最终整合制定出专注于解决业务问题的计划. 数据科学家和他们的分析团队的计划提出了如何组装数据集,并制定了一个数据如何被用

数据融合:大数据分析的瓶颈

利用互联网购物的营销数据来追踪和勾画消费行为并以此为据促销是大数据应用的成功典型案例.有些人已此将大数据吹得神乎其神,好像它能成为万能药.其实,这只是大数据应用中的很小一部分.作为智能决策的支持手段之一,大数据在企业.事业.政府.社会管理和发展上的应用是更重要的挑战.在这里,多源数据的融合就成为大数据分析中的瓶颈. 每个亲身参加过大数据项目的数据科学家.数据分析师.数据库管理员都会告诉你,项目的80%的时间和经费花在数据的准备工作上.这其中多源数据的融合是最耗费资源的任务之一.难怪最近纽约时报惊

解读:大数据分析及其数据来源

当我们谈到大数据分析,首先需要确定数据分析的方向和拟解决的问题,然后才能确定需要的数据和分析范围.大数据驱动的分析主要的挑战不是技术问题,而是方向和组织领导的问题,要确定方向,提出问题,需要对行业做深入的了解.当然,大数据分析最核心的,关于数据的来源更是至关重要的.在数据量非常大的今天,如何以更高的效率获取到分析所需要的数据,如何利用这些数据反应最真实的情况,是业内不断探讨的议题.接下来,小编就带大家来了解下大数据分析及其数据来源. 大数据分析 大数据分析,顾名思义,就是对规模巨大的数据进行分析

如何理解大数据分析

如今,云计算的热潮似乎还没散去,行业厂商就已经开始关注下一个热点:大数据.而与以往的炒作周期一样,现在的大数据对于用户来说其来源比较混乱,因为供应商提出了自己独特的,并且经常相互矛盾的定义和术语. 大数据定义之所以混乱的最常见的原因,是人们将大数据存储与大数据分析的结果混为一谈."大数据"一词起源于开源社区,其开发和分析过程比传统的数据仓库速度更快,扩展性更强,并且可以通过网络在用户每天产生的大量非结构化数据中提取价值. 大数据的存储是相关的,其旨在解决大量的非结构化数据,助长企业级的

聚合大数据分析和应用玩家 他们搞啥?

文章讲的是聚合大数据分析和应用玩家 他们搞啥,近年来,大数据正日益成为国家基础性战略资源,蕴藏着巨大的潜力和能量.在国家层面,发展大数据已成为提升竞争力的战略选择;在经济层面,发展大数据已成为打造新动能的关键要素;在行业层面,发展大数据已成为驱动转型发展的重要引擎;推动大数据发展已成为从政府到民间.从行业组织到企业机构的社会共识. 在这样的背景之下,2016年9月13-14日,国内独立第三方移动数据服务平台TalkingData主办的T112016暨TalkingData智能大数据峰会在北京中国

《大数据分析原理与实践》——1.5 全书概览

1.5 全书概览 本书将较为全面地描述大数据分析的模型.技术.实现与应用.其中第2-7章介绍大数据分析模型,包括关联分析模型.分类分析模型.聚类分析模型.结构分析模型和文本分析模型:第8-11章介绍大数据分析相关的技术,包括大数据预处理.特征选择和降维方法.面向大数据的数据仓库和大数据分析算法.第12-14章介绍三种用于实现大数据分析算法的平台,分别是大数据计算平台.流式计算平台和大图计算平台:第15-16章介绍两类大数据分析的具体应用,分别讲述社会网络和推荐系统. 第2章是大数据分析建模的基础