大数据2.0时代特征——数据处理更快

  随着行业的发展,其商机的展现也出现多样的趋势。“大数据”是在2014年被用滥了的词汇,但实际上,由于数据量缺失、大数据清洗和分析能力不足,以及数据可视化瓶颈等问题,“大数据”一直未能迟迟落地。

  而在最近,随着基础设施的发展,意味着大数据的发展又走到新的一个临界点。系统软件供应商Software AG的Gagan Mehra,在Venturebeat网站阐述了他对于大数据接下来发展的认识,他认为更快地数据处理、更可靠地数据质量,以及给更加细分的应用市场,是大数据2.0时代的重要特征。

  更快的数据处理速度

  由于数据量指数型增长,使得对于数据的快速分析的需要已经变得比以往任何时候都要迫切。几乎每家大数据厂商,都想要兜售比别家处理速度更快的产品。Hadoop发布的新品Hadoop 2.0 / YARN,几乎能实时分析数据。而下一代大数据的计算牵引框架Apache Spark,它的速度比Hadoop快100倍。

  硅谷风险投资机构Andreessen Horowitz,已经以1400万美元的价格,领投了一家以Apache Spark为业务核心的初创企业Databricks。不久前,亚马逊也上线了实时流数据服务Kinesis,来帮助没有数据处理能力的公司解决这一问题。

  许多分析供应商都已经认识到了数据处理速度的重要性,并建立了能够每秒处理TB数据的产品。传感器数据分析、物联网在工业和消费级市场快速发展的势头,驱动了这次变革。比如一家企业的传感器,能够每秒产生出数百次的事件,实时处理这些数据难度很高。特别是当实时处理的传感器数据,激增到一天5TB的时候,速度,就成了尤为关键的指标。

  同时,尽管数据存储成本已经累年下降,但数据存储的费用还是不小的一笔支出。部分商家相比存储完整数据流而言,更倾向于保存过滤掉噪音的数据。

  智能清洗“垃圾数据”

  在本就难以计数的数据量继续以指数模型激增时,对于数据质量的强化,便摆上了许多数据供应商的议程。换句话说,在庞大数据面前,即使计算机能够高效的处理它们,但大量无用的“垃圾”数据,只会给系统带来负担,并增添存储、主机等设备成本。这就需要数据处理过程中,根据特定的规则和参数,对涌进数据流进行“清洗”和分析,并自动决策该去处理哪些数据,这一切不再需要人工去干预。

  在这样的环境下,如果选择了一个坏的数据,就会像病毒一样,可能引发连续的错误决策,甚至让企业蒙受经济损失。一个例子就是利用算法去进行股票交易,以毫秒计数股票市场中,任何一点小的差错,都有可能引发无法巨大的损失。

  所以,数据质量已成为服务级别协议(service level agreements)最重要的参数之一。无法屏蔽劣质的数据的供应商,会因此被列入行业的黑名单,以及面临严重的经济处罚。

  B2B行业为早期数据质量的入局者,他们非常重视数据的质量,来保持商业运作时的稳定性。甚至,许多企业计划为数据质量部署实时的警告系统,这些警告会被发送于负责相应问题的专员,由他们提供问题的解决方案。

  机器学习是另一项需要保证数据质量的领域。机器学习系统部署在一个闭环的生态中,通过模式分析与其他的数据分析技术,细化原来的数据质量规则。而高质量的数据,能够保证机器进行正确的行为模式分析。

  越来越多的基础应用

  大数据带来的变革,使得每一个人都想要利用它,但技术上门槛又让许多人不得已只能充当一个看客。而应用将有助于人们去克服这一困难。在接下来的几年中,我们将会看到成千上万的解决某一垂直领域的专业应用,以应对来自各行各业的大数据挑战。

  目前,已经小有成就的数据分析公司包括eHarmony、 Roambi、 Climate Corporation等等。未来,甚至许多小企业,既不用依赖特定基础设备,也不要雇佣专业的数据科学家,就能受益于对大数据分析利用。

  比如,一些应用将从各种渠道,收集关联的客户数据,以更好地了解客户的需求。从而企业能够为特定的目标客户,提供特定需求的产品,更有针对性地赚到钱。当这些应用走进人们日常的吃喝玩乐、医疗保健等领域,生活也会因此而更美好。

时间: 2024-10-09 09:22:08

大数据2.0时代特征——数据处理更快的相关文章

大数据2.0再掀狂潮 你准备好了吗?

文章讲的是大数据2.0再掀狂潮 你准备好了吗,随着物联网.云计算.移动互联网.车联网.手机.平板电脑以及遍布各个角落的各种各样的传感器的出现,互联网承载了前所未有的数据量,数据已经变成了生活中的宝矿.大数据分析已经逐渐介入到企业的各种决策之中,互联网相关产业相对略快,而传统企业在大数据分析方面的武力却尤为薄弱. 目前,大数据由单一的业务数据收集和数据分析,逐步跨入数据开放.数据共享的新时代.伴随新时代而来的自然是新的法则,"地球村"下网络高速互通,现在的市场几乎是以"秒&qu

企业实施大数据的五大关键(更新版)

刚刚过去的2016年,是大数据从概念到务实落地的一年.在过去的一年内,互联网行业.电信行业.金融行业.房地产行业.汽车行业.娱乐行业.教育行业.零售行业.能源行业.医药行业.政府机关等都在不同程度的接触和实施大数据.很多正在实施大数据的企业或机构并不成功,为什么?他们实施大数据都存在共同的问题,最为典型和严重的是三个问题是: 问题一:业务部门没有清晰的大数据需求和规划 很多企业业务部门不了解大数据,也不了解大数据的应用场景和价值,因此难以提出大数据的准确需求. 由于业务部门需求不清晰,大数据部门

大数据实现“0”到“1” 要分几步走?

大数据有多火?这样的答案可能有千百种,也从反向证明了大数据真的太火,因为所有人都知道.众所周知,在Gartner报告中,常常会看到炒作周期这个词汇.这意味着有很多技术,虽然人人皆知,但是距离实际应用落地还有一段距离,这就是炒作期. 大数据从0到1分几步? 然而,大数据应该过了炒作期,我们更应该关注的是大数据的落地,关注从零到一的过程.正是因为几百TB甚至几PB的数据限制没有任何意义,才让数据的处理过程显得更为重要. 首先我们要分清大数据与传统的统计分析的区别,首先,大数据的体量更大,在大数据分析

IT时代来临,大数据让效果营销走更远

文章讲的是IT时代来临,大数据让效果营销走更远,随着大数据时代的开启,人们越来越认识到数据的重要性.云计算的出现,使得对巨量的非结构数据的分析处理变得可能,这座漂浮在数据海洋中的冰山,其深藏的一面也渐渐被人发掘.大数据似乎不可触摸,但又关系着我们生活的方方面面.举个简单的例子,今天早晨你来到公司,打开浏览器,开始阅读新闻,不经意的你就会从侧边广告栏里看到你前几天就在考虑购买的某品牌型号的手机广告.如果你点击观看了这个广告,广告主就需要向网站支付一定的费用.这种广告展现的形式,就是典型的建立在大数

大数据的下一站:快数据?

摘要,:当我们所 有的行为数据都联网, 在云端,我们的下一步应该可能会做什么"大数据"都可以分析后做出预测,但或许这仅仅只是预测,因为"偶然".因为"人的思维"等种种原因,很 多时候,人类不按常理出牌,这样的话,你的数据还能准确的预测出你的行为吗?答案或许是可以的,只是不完全是大数据,而需要快数据!大数据的下一站:快数据?我们在生活或工作中会碰到以下情景:公司的女神MM一直喜欢吃哈根达斯冰激凌,几乎每天要买一杯,但某一天,她却拿着一个DQ冰雪皇后

大数据2.0:CISO渴望发现攻击行为

以大数据为中心的安全系统是否已成过去式?根据2013 RSA大会上的一个安全专业会议,许多未使用安全性大http://www.aliyun.com/zixun/aggregation/12240.html">数据收集系统去发现攻击行为的组织可能已经处于落后位置. 在一次围绕使用大数据实现更优安全监控的讨论中,小组成员讨论了分析大量网络安全事件的重要性.纽约投资银行的CISO Ramin Safai指出,他的公司每秒会有5,000次网络事件,每天会从中捕捉25 TB数据:他的三人网络分析团队

大数据真的会让医疗更美好么?

医药行业科技发展落后了数十年之后,如今真正走入了它的大数据时代.手机技术.传感器.基因组分析以及分析软件的开发使得大量个人信息的捕获成为可能,包括人体的组成以及周围的环境,这些信息共同改变了医药行业.行业目标从大众化治疗变为了个性化诊疗,治疗的可控性增强,这对于医生和患者来说无疑是个利好消息. 据麦肯锡顾问公司推测,隐藏在这些医疗数据中的商机可能高达每年3000-4500亿美元. 麦肯锡顾问公司曾建议苹果.高通.IBM公司投资科技产业,小至智能手机应用程序,大到价值十亿美元的分析系统.而一些刚创

东芝开发高速对照大数据技术 比传统处理技术快50倍

东芝开发出了可高速对照大数据.大规模媒体数据注1的数据处理技术.此技术以高维矢量注2表现人物的面部.销售数据等,通过预先将类似的矢量群索引化处理,可实现高速对照.利用此技术从1000万张人物的面部图像数据中提取指定人物的实验注3中,仅8.31毫秒(1毫秒=1/1000秒)即可完成处理.比传统的处理速度高出约50倍注4. 近年来,大数据的分析.活用技术不断用于机械学习或机器故障预测等领域,大幅提高了故障的预测精度,给人们的生活带来诸多便利的同时,分析的数据量也比人们预想的更快实现了大容量化.大规模

2013大数据趋势:SQL阵营更活跃

大数据在2012"一飞冲天",它将会以一种戏剧性的方式改变数据管理的各个方面.大数据系统已经给机器生成数据管理.连续的ETL.操作型BI.动态数据以及基于云的数据仓库都带来了变化. 随着大数据发展进入2013年,已经没有什么技术能比NoSQL数据库和Hadoop更活跃了,它们都有着更大的提升空间.根据MarketAnalysis.com 2012年的一份报告看,单单是Hadoop MapReduce市场,预计复合年增长率将达到58%,在2018年将达到22亿美元的规模. 不过,NoSQ