解读:大数据分析及其数据来源

当我们谈到大数据分析,首先需要确定数据分析的方向和拟解决的问题,然后才能确定需要的数据和分析范围。大数据驱动的分析主要的挑战不是技术问题,而是方向和组织领导的问题,要确定方向,提出问题,需要对行业做深入的了解。当然,大数据分析最核心的,关于数据的来源更是至关重要的。在数据量非常大的今天,如何以更高的效率获取到分析所需要的数据,如何利用这些数据反应最真实的情况,是业内不断探讨的议题。接下来,小编就带大家来了解下大数据分析及其数据来源。

大数据分析

大数据分析,顾名思义,就是对规模巨大的数据进行分析,是研究大量的数据的过程中寻找模式,相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。

大数据分析的第一步是数据的“抽取—转换—加载”(the Extract-Transform-Load,ETL),这就是所谓的数据处理三部曲。该环节需要将来源不同、类型不同的数据如关系数据、平面数据文件等抽取出来,然后进行清洁、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。需要指出的是,尽管大数据分析有它的优势,但是也有很大的局限性。很多时候,大数据产生的相关关系可能是虚假的,在完全随机的数据中显示了某些规律,因为数据的量非常大,可能产生向各个方向辐射的各种联系,有可能会得到与事实完全相反的结论。但是只要数据足够大,数据挖掘总能发现一些相关关系,可以帮助我们发现趋势和异常情况。

数据来源

大数据分析的数据来源有很多种,包括公司或者机构的内部来源和外部来源。分为以下几类:

  1. 交易数据。包括POS机数据、信用卡刷卡数据、电子商务数据、互联网点击数据、“企业资源规划”(ERP)系统数据、销售系统数据、客户关系管理(CRM)系统数据、公司的生产数据、库存数据、订单数据、供应链数据等。
  2. 移动通信数据。能够上网的智能手机等移动设备越来越普遍。移动通信设备记录的数据量和数据的立体完整度,常常优于各家互联网公司掌握的数据。移动设备上的软件能够追踪和沟通无数事件,从运用软件储存的交易数据(如搜索产品的记录事件)到个人信息资料或状态报告事件(如地点变更即报告一个新的地理编码)等。
  3. 人为数据。人为数据包括电子邮件、文档、图片、音频、视频,以及通过微信、博客、推特、维基、脸书、Linkedin等社交媒体产生的数据流。这些数据大多数为非结构性数据,需要用文本分析功能进行分析。
  4. 机器和传感器数据。来自感应器、量表和其他设施的数据、定位/GPS系统数据等。这包括功能设备会创建或生成的数据,例如智能温度控制器、智能电表、工厂机器和连接互联网的家用电器的数据。来自新兴的物联网(Io T)的数据是机器和传感器所产生的数据的例子之一。来自物联网的数据可以用于构建分析模型,连续监测预测性行为(如当传感器值表示有问题时进行识别),提供规定的指令(如警示技术人员在真正出问题之前检查设备)等。
  5. 互联网上的“开放数据”来源,如政府机构,非营利组织和企业免费提供的数据。
  6. 本文作者:小数点
  7. 来源:51CTO
时间: 2024-11-01 02:00:39

解读:大数据分析及其数据来源的相关文章

EMC为预测性大数据分析交付数据湖方案

文章讲的是EMC为预测性大数据分析交付数据湖方案,EMC公司和Pivotal今天发布数据湖Hadoop2.0包,面向客户的预测分析场景构建横向扩展数据湖,提供一种包含计算.分析和存储在内的交钥匙方案. 作为一种面向由传统和下一代工作负载产生的关键数据,可无限可扩展的知识库,数据湖正蓄势待发.EMC的横向扩展数据湖以企业级特性为设计之本,帮助组织从大数据中获得直接的商业价值. 今年早些时候,EMC和Pivotal发布了第一个数据湖Hadoop包-基于企业级横向扩展存储与企业级Hadoop预测分析的

大数据分析之数据孤岛:你能看到它们吗?

从企业和CIO们开始尝试数据挖掘以来,数据孤岛就一直阻碍着商业智能效能的提高.数据孤岛,换句话说昂贵的.需要费尽心血维护却彼此无法兼容的数据库,指望从它们那儿发掘到伟大的知识,无疑于缘木求鱼.也就是说,数据库的数量和挖掘到的知识产量没有任何关系.正如一位商业智能专家所说的,进进出出的都是垃圾. 谈到大数据分析-或者叫数据3V(类别.数量和增长率),则是个将大多数公司窒息的流行语.因为,据分析师Ted Friedman说,数据孤岛整指数般的蔓延-就像瘟疫一样. "在你的公司,任何时间任何地方,都有

大数据分析:数据抽样的终结者

"如果你真的想要了解发生在您企业业务中的真相,你需要大量的非常详细的数据资料."数据仓库研究院(TDWI)研究主任菲利普?·卢瑟姆在其最新的一份TDWI大数据分析报告中写道."如果你真的想看一些你从未见过的东西,这有助于您挖掘从未被商业智能分析过的数据." 这便是大数据分析存在的理由,其是前所未有的.不仅仅是大数据概念的本身提醒着我们,至少我们还可以追溯到21世纪初,"彼时,存储和CPU技术正被百万兆字节的数据所淹没,IT面临着数据的可扩展性危机.&quo

[重磅]清华大数据产业联合会"应用创新"系列第1讲:大数据分析(46PPT)

2014年11月26日晚,清华大数据产业联合会成立仪式在清华大学舜德楼401室召开,联合会依托于清华大学独特的师资和生源优势.清华大学多个院系和学科在大数据相关领域多年的积累与探索,联合大数据产业链中的优秀龙头企业与创新企业,旨在提供大数据产业链的思维碰撞与资源对接平台,促进产.学.研良性互动,以产业需求带动复合型大数据人才的培养,推动大数据生态系统中的各方合作共赢.会议由联合会秘书长王霞主持. 到场的嘉宾有: 清华大学杨斌副校长,清华大学数据科学研究院执行副院长.清华大数据产业联合会会长韩亦舜

企业大数据分析实践指南、总结与展望

数据无处不在 在我们身处的时代,数据无处不在.据IBM公司估算,我们每天产生约2.5万ZB的数据,这意味着世界上90%数据都是过去的两年中产生的. Gartner公司分析报告显示,在2015年财富500强的公司中百分之八十五的企业无法利用大数据来获取竞争优势. 到2020年,全世界将有上百万大数据相关的就业机会产生.这些庞大的数据蕴藏了宝贵财富,企业可以使用最先进的分析技术,利用这些数据更好地了解客户的行为,识别商业机会,制定运营战略. 让我们举几个例子: 金融机构每天通过信用评分模型,了解他们

企业大数据分析实践指南

数据无处不在 在我们身处的时代,数据无处不在.据IBM公司估算,人类每天产生约2.5万ZB的数据,这意味着世界上90%数据都是过去的两年中产生的.Gartner公司分析报告显示,在2015年财富500强的公司中百分之八十五的企业无法利用大数据来获取竞争优势. 到2020年,全世界将有上百万大数据相关的就业机会产生.这些庞大的数据蕴藏了宝贵财富,企业可以使用最先进的分析技术,利用这些数据更好地了解客户的行为,识别商业机会,制定运营战略. 让我们举几个例子,金融机构每天通过信用评分模型,了解他们的客

论大数据分析的正确方法 应理智对待

据统计,从人类文明开始到2003年,人类共创造了5TB(兆亿字节)的信息.现在,同样的数据量仅需两天就能够被创造出来,且速度仍在加快.如此庞大的数据量使数据分析复杂化,而大数据中的非结构化数据将加深这种复杂度. 这种情况下,我们需要清楚:什么样的数据应被保存.如果从整体性出发,数据采集和存贮算不上大数据,对海量数据进行分析计算之后的结果才有实际价值.这亦是大数据的价值所在. 关于大数据数量,业内一种较为激进的观点认为,"大数据"的叫法存在问题,因为数据只有"大"是没

《大数据分析原理与实践》——1.5 全书概览

1.5 全书概览 本书将较为全面地描述大数据分析的模型.技术.实现与应用.其中第2-7章介绍大数据分析模型,包括关联分析模型.分类分析模型.聚类分析模型.结构分析模型和文本分析模型:第8-11章介绍大数据分析相关的技术,包括大数据预处理.特征选择和降维方法.面向大数据的数据仓库和大数据分析算法.第12-14章介绍三种用于实现大数据分析算法的平台,分别是大数据计算平台.流式计算平台和大图计算平台:第15-16章介绍两类大数据分析的具体应用,分别讲述社会网络和推荐系统. 第2章是大数据分析建模的基础

《大数据分析原理与实践》一一1.5 全书概览

1.5 全书概览 本书将较为全面地描述大数据分析的模型.技术.实现与应用.其中第2-7章介绍大数据分析模型,包括关联分析模型.分类分析模型.聚类分析模型.结构分析模型和文本分析模型:第8-11章介绍大数据分析相关的技术,包括大数据预处理.特征选择和降维方法.面向大数据的数据仓库和大数据分析算法.第12-14章介绍三种用于实现大数据分析算法的平台,分别是大数据计算平台.流式计算平台和大图计算平台:第15-16章介绍两类大数据分析的具体应用,分别讲述社会网络和推荐系统. 第2章是大数据分析建模的基础