大量数据≠大数据

Intetix Foundation(英明泰思基金会)由从事数据科学、非营利组织和公共政策研究的中国学者发起成立,致力于通过数据科学改善人类社会和自然环境。通过联络、动员中美最顶尖的数据科学家和社会科学家,以及分布在全球的志愿者,我们创造性地践行着我们的使命:为美好生活洞见数据价值。

在大数据时代,人们很容易把一大堆数据定义为“大数据”,比如,大型制造企业和仓库可能存有多年积累下来的存货数据,或许高达几兆兆字节,但这并不能算大数据。同样,1500个PoS机的现金数据、一大份工作表中的数据也不是大数据。

企业需要行之有效的方法去储存、分析、使用数据,如果管理的不是大数据问题,那就没有必要建立数据池、雇佣数据科学家,也没有必要买一堆Hadoop产品去管理。说到底,辨别所管理的是大数据还是大量数据至关重要。以下推出五种辨别方法:

  1. 数据是否来源于多种不同渠道?
    如果数据来源单一,即使数据量很大,也不太可能是大数据。

职业数据人会考虑大数据的三V(或4V):数量,多样性,速度,(精确性)。本文讨论的就是第二种:多样性。一般来说,大数据往往不是来自于单一源头或系统,而是来自于许多不同的地方,不同的形式,以及不同的变量。例如,PoS数据尽管数量庞大但不是大数据,可是如果把从供应商处取得的数据与其整合以构建供应链,则它们就成了大数据。因此,问题在于是什么形成了大数据,而不是仅仅考虑数量因素。

  1. 数据是否需要被实时分析使用?
    并不是所有的大数据都一定来源于多种不同渠道,当数据需要被实时分析使用,比如预防欺诈、股票交易,尽管数据缺乏多样性,但仍可被定义为大数据。在信用服务业,用于预防欺诈的数据来源并不复杂,但需要实时分析技术(通常用Spark,有时会同时使用Hadoop和Spark),这样若真的存在欺诈,也会被马上检测出并予以阻止。同样的,股票交易员所依赖的高频交易数据也并不是特别复杂的数据,但需要连续处理以做出买入或卖出股票的决定,Hadoop和Spark是被经常使用的分析工具。
  2. 你是否需要询问复杂问题?
    当你开始针对数据询问更加复杂的问题的时候,比如确定因果关系,则该数据就成了大数据。当然,在这种情况下,最好还是使用多方面来源的数据。比如,当你想知道女性红色高跟鞋的四月份的市场情况的时候,你所要的数据就不仅仅是你自己的采购记录了,你还要整合社交媒体和其他外部市场数据以得到最佳答案。
  3. 数据集是否代表了许多不同的变量?
    如果数据代表了一系列不同的难以界定模式和关联性的变量,那么即使数据是由单一系统或小型系统搜集而来,也可认定为是大数据。例如,气象数据仅从一些基础的系统取得(气温,气压,风速等),但数据关系却极为复杂,即使是最富经验的气象学家也不一定总能做出准确的气象预测,因此,他们会使用高度专业化的数据分析方法以作出更准确的预测(尽管还是有人会说他们并不比有关节炎的老人更准确)。
  4. 数据是未架构的,半架构的,架构的还是以上的综合?
    诸如SQL等关系明确的数据库长时间以来成功的处理了组织良好的数据,但如今的多媒体世界为我们呈现了一系列未架构的和半架构的数据,这些数据在SQL中无法得到良好的处理。这些数据包括图像,视频,文本文件,电子邮件交流,社交媒体,音频文件以及其他。NoSQL数据库正在变得更受欢迎,Hadoop和其他大数据工具在处理这些多样化的数据类型的时候显得更为强大,特别是你所做的处理工作不仅仅是保存和找回图像等。

你的数据是大数据吗?如果是,那么就去找寻合适的工具处理你的数据,通过Syncsort你可以找到大数据处理办法;如果你需要处理主机上的大数据,现在Hadoop也能帮你解决这个问题了。

====================================分割线================================

本文转自d1net(转载)

时间: 2024-10-10 02:16:54

大量数据≠大数据的相关文章

2015建投数据大数据解决方案发布暨核心客户研讨会落幕

ZD至顶网软件频道消息:10月25日,为期两天的"新启航 新产品--2015建投数据大数据解决方案发布暨核心客户研讨会"在北京成功举办.本次研讨会议由建投数据科技股份有限公司主办,汇聚来自全国各地数十家金融行业客户.会议分享了大数据在互联网征信领域的应用,建投数据在金融辅助营销和工业4.0这两个领域打造大数据应用实践.通过传播行业最佳管理实践,提供行业优秀解决方案,促进业内经验的交流,助力行业企业实现战略转型! 一. 互联网征信现状 今年互联网金融最热门的风口当属互联网征信了,特别是央

星图数据:大数据的想象空间

文章讲的是星图数据:大数据的想象空间,云计算从提出到进化出完善的PaaS.IaaS和SaaS架构,再到被市场广泛接受,用掉了将近十年.而大数据概念从知名学者舍恩伯格提出到现在,刚刚不到三年,最常见的用途不过是为碎片化的营销渠道提供参考坐标.大数据的潜力和商业能量显然还没被充分挖掘出来. 记者就大数据的应用场景和未来的发展趋势,采访了星图数据(Syntun)的创始人谷熠. 产品经理出身的谷熠曾在 SaaS 企业级软件行业工作十多年,主要为企业客户开发数据类和信息类产品;他的合伙人之一,也是星图数据

谈大数据 大数据的精髓在于“预测用户行为”

谈大数据 大数据的精髓在于"预测用户行为".它能够知道你的喜好,它能够通过你过去留下的行为,看过什么东西,浏览过什么网站,去过什么地方,喜欢什么吃的,就是说你在互联网上都留下了一些足迹,这些信息能够帮助大数据的服务商推进你有兴趣的信息,比如你在玩一个游戏,他会猜你喜欢什么样的游戏,它能推荐你什么样的应用和商品. 企业建立内部的数据平台已是大势所趋,但只有市场出现专业的数据平台实现数据的管理和交易,才能推动大数据快速发展. 未来移动互联网的发展更普及之后,我们可以看到,整个营销会迎来一个

为什么没有“小数据” 大数据就毫无意义

在大数据的火热炒作中迅速追赶行业热潮是一件很容易的事.庞大的数据集.快速移动的分析.复杂多样的数据源,现在这些都十分火热,但是你要明白,如果没有小数据的支撑大数据是毫无意义的. 我所说的传统性能指标的小数据,是任何大数据项目成功的关键. 这些KPI是用以衡量一个公司是否成功.它们可能包括客户保持率.转化率.市场份额或其他几十个决定你的公司运营状况如何的指标.如果没有良好的关键绩效指标(KPI)就不可能有好的大数据计划. 数据本身几乎是毫无用处的.它只是一系列大量的无关联的数字.它的价值只有当它与

云中的大数据:数据速度、数据量、种类、真实性

本文重点介绍使用大数据的应用程序,解释大数据分析背后的基本概念,以及如何将这些概念与商业智能 (BI) 应用程序和并行技术相结合,比如 "云扩展" 系列第 3 部分中介绍的计算机视觉 (CV) 和机器学习方法. 大数据分析与视频分析的区别在于所处理数据类型的广度上,而且与所使用的数据挖掘或 MapReduce 方 法相比,所提供的交互式分析和搜索工具可能更加复杂,而且比 Google BigQuery 的运行时间长得多.例如 ,Google BigQuery 使用列式搜索来压缩和加速海

浅谈车企如何点燃大数据

随着汽车市场逐步饱和,竞争加剧,车企希望通过拥抱大数据实现精细化经营,领先一步.但是大数据化的过程却并非一蹴而就,也不是简单大数据技术选择,更应该看成一个企业级系统工程,本文结合大数据项目实践和行业理解,着重阐述了如何系统看待大数据建设和关键问题解决思路. 背景 随着汽车普及不断深入,中国汽车市场逐渐饱和,增速放缓,迈入竞争运营阶段到.根据有关报告,2015年,占我国汽车产量98%的37家主要汽车企业形成整车产能3122万辆.其中乘用车产能2575万辆,产能利用率为81%;商用车产能547万辆,

大数据时代,你准备好了吗?

近日网上流传这么一个故事:一名小伙子专门应聘上海高档小区的物业管理,自己配了扫描枪,每天就盯着小区垃圾堆,看见有条形码就扫描,晚上回家把数据整理出来,得出小区居民喝什么水.吃什么油.买什么衣服,整个小区的消费品类和品牌偏好一清二楚,再形成报告卖给大公司,报告价值数十万. 这是大数据价值的微小表象之一. 2013年被认为是世界的大数据元年,数据被称为新的石油,在未来,数据将会像土地.石油和资本一样,成为经济运行中的根本性资源.美国人维克托·迈尔·舍恩伯格撰写的<大数据时代>指出,大数据带来的信息

大数据VS心理学:大数据将革新心理学-互联网分析沙龙

行业数据 大数据VS心理学:大数据将革新心理学 什么是心理学? 依照百度百科的描述,心理学是一门研究人类的心理现象.精神功能和行为的科学.心理学研究涉及知觉.认知.情绪.人格.行为.人际关系.社会关系等许多领域,也与日常生活的许多领域--家庭.教育.健康.社会等发生关联. 心理学一方面尝试用大脑运作来解释个体基本的行为与心理机能:同时,心理学也尝试解释个体心理机能在社会行为与社会动力中的角色:而且,它也与神经科学.医学.生物学等科学有关,因为这些科学所探讨的生理作用会影响个体的心智. 心理学包括

大数据,颠覆存在与思维

随着互联网+时代的到来,大数据成为与移动互联网.云计算.物联网和人工智能并驾齐驱,推动经济发展和行业融合的强大引擎:在开拓"互联网+蓝海时代"的过程中,超大海量数据的收集,存储和分析,使信息产业发生了颠覆性变革,远非传统意义的技术创新可比. 颠覆认知的大数据 大数据并不局限于规模庞大,如果就某一板块或领域的数据源来说,它更多指维度上的完整.例如针对某一个体,通过对其上网行为的痕迹进行沉淀分析,可以综合得出他的性格偏好.社交范围.财务状况等情况,这些都构成了这个个体本身.此外,丰富全面的