《万物互联》——2.8 理解大数据

2.8 理解大数据

当物联网从各种各样的设备中收集到的数据被创造性地使用时,就会变得更加有价值。这就是所谓的大数据的技术问题。这是一个描述大量数据的简单术语——数据集合如此之大,以至于无法用传统的关系型数据库技术来处理了。为了体现物联网真正的价值,需要开发处理海量数据的应用以建立连接和相关性,从而达到智能决策的效果。总的来说就是要把从各处收集的传感器数据连接起来,得到一个非常独到的结论。

处理物联网所收集的大数据实际上会面临3个挑战。首先是数据的获取,其次是数据的存储,最后是数据的分析。

2.8.1 数据获取

数据获取(Data Harvesting,也称作Data Ingestion)是一个多步骤的过程,包括从各个设备收集数据,然后将数据传送到某个中心数据库。这主要是关于设备和网络的问题,当然,也包括数据库。前面我们基本上已经讲解了相关的内容。

2.8.2 数据存储

数据存储看起来很简单,但这种说法非常有欺骗性。你所需要的就是很多的服务器,也许是云服务器,以提供足够的能力来存储所有收集到的数据。这听起来很简单,特别是看到存储的成本不断下降的时候。

问题当然不会那么简单,即使这是一个老问题。很多公司就是被存储层面的问题挡住了而一直没能实现更重要的分析功能。

这可真糟糕!因为实际上有很多公司可以提供解决数据库存储需要的方法,而且有好几种这样的方法可用。

一个流行的方法就是找一家提供“数据库即服务(Database as a Service,DBaaS)”能力的公司,通常都是基于云的数据仓库。已经有很多选择,包括Amazon Redshift、来自Hortonworks的Enterprise Hadoop以及Cloudera Enterprise。这些数据库管理和自动化服务缓解了公司安装、管理和运行他们自己的大型数据库的需要——从而把珍贵的资源释放出来进行更重要的数据分析。

管理服务提供商(Managed Service Provider,MSP)与DBaaS提供商很相似,但是它们提供了更加有用的服务,比如All Covered和Treasure Data。这些公司不仅能够进行外包数据的收集和存储工作,还可以享受基本分析功能,通常是从主数据中抽取特定的信息。利用MSP来完成最费时耗力的工作,一个公司就可以把它的注意力聚焦在数据分析的细节上——并根据那些分析进一步采取措施。

2.8.3 数据分析

这是第三个挑战,也是最具挑战性的。假设一个公司可以外包数据的获取和存储,那么现在的问题就是如何从收集到的海量数据中抽取价值。换句话说,当收集到了海量数据之后,一个公司要怎么做呢?

为了处理这个数量级的数据,必须开发用来分析所收集的数据的趋势、模式和压点(pressure point)的应用。这是一个巨大的计算挑战,特别是当你希望实时呈现结果的时候。

当处理这个数量级的数据的时候,数据经常是以一种非结构化的形式收集(和存储)的,主要问题之一就是你要确保没有一不小心忽略重要的东西而在根本无关紧要的数据上花费了太多的时间。对于特定的应用,很有必要把麦粒和糠皮分离开。

注意

因为将来所有的物联网数据都需要分析,人力资源团队预测对数据分析专家的需求会很快上升。这应该是一个可以进入的好职业。
但是仅仅分析数据是不够的。对于一个真正从海量的潜在实时数据流中受益的公司,必须建立一种数据驱动决策的文化。这就是说,公司需要按照数据所指引的方向行进——而不是按照老式的管理层所认为的方向行进。这是个勇敢的新世界,是由物联网所收集的新数据所驱动的。有些公司将茁壮成长,而另一些则相反。

时间: 2024-12-10 05:35:21

《万物互联》——2.8 理解大数据的相关文章

如何理解“大数据时代”?

问:编辑同志,您好.继"物联网"."云计算"之后,"大数据"一词被越来越多地提及.大家都在谈论"大数据",谁都想用好"大数据",俨然进入了"大数据时代".请问如何理解"大数据时代"? 大数据"只是一种提法,其形态本身是数据云.人们用它来描述.定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新.让我们看网上的一组数据,就能够对"大数据&q

《拥抱机器人时代——Servo杂志中文精华合集》——4.8 理解大数据

4.8 理解大数据 当物联网从各种各样的设备中收集到的数据被创造性地使用时,就会变得更加有价值.这就是所谓的大数据的技术问题.这是一个描述大量数据的简单术语--数据集合如此之大,以至于无法用传统的关系型数据库技术来处理了.为了体现物联网真正的价值,需要开发处理海量数据的应用以建立连接和相关性,从而达到智能决策的效果.总的来说就是要把从各处收集的传感器数据连接起来,得到一个非常独到的结论. 处理物联网所收集的大数据实际上会面临3个挑战.首先是数据的获取,其次是数据的存储,最后是数据的分析. 4.8

《大数据导论》一第1章 理解大数据

  本节书摘来自华章出版社<大数据导论>一书中的第1章,第1.1节,作者托马斯·埃尔(Thomas Erl),瓦吉德·哈塔克(Wajid Khattak),保罗·布勒(Paul Buhler),更多章节内容可以访问"华章计算机"公众号查看. 第1章 理解大数据 大数据是一门专注于对大量的.频繁产生于不同信息源的数据进行存储.处理和分析的学科.当传统的数据分析.处理和存储技术手段无法满足当前需求的时候,大数据的实践解决方案就显得尤为重要.具体地说,大数据能满足许多不同的需求,

《大数据导论》——第1章理解大数据

第1章理解大数据大数据是一门专注于对大量的.频繁产生于不同信息源的数据进行存储.处理和分析的学科.当传统的数据分析.处理和存储技术手段无法满足当前需求的时候,大数据的实践解决方案就显得尤为重要.具体地说,大数据能满足许多不同的需求,例如,将多个没有联系的数据集结合在一起,或是处理大量非结构化的数据,抑或是从时间敏感的行为中获取隐藏的信息等.虽然大数据看起来像是一门新兴的学科,却已有多年的发展历史.对大型数据集的管理与分析是一个存在已久的问题-从利用劳动密集方法进行早期人口普查的工作,到计算保险收

只要1000个字,文科生也能理解“大数据”

只要1000个字,文科生也能理解"大数据" 时间:2014-11-01 17:32 来源:虎嗅 作者:许维 大数据对绝大部分人来说就好比"叶公好龙" 里面的龙,听说过没见过.大家都知道大数据很流行, 但是真正理解大数据的逻辑的人仍然不多.我 觉得这个问题更多是出在大数据的推广者自己身上,写的文章术语太多,谈理论太多,不接地气,以至于让普通人看不懂.当然这也不能怪他们,能把大数据玩转的基本都是理科生,写文章并非他们擅长的事情.今天我尝试着就用1000字的篇幅,把大数据

正确理解大数据 谨防数据“泡沫”

被新闻媒体和学术会议宣传得近乎神化的大数据,最近也频频被泼冷水.2013年年初,美国知名大数据分析公司Avasid联合创始人兼CEO Gurieet Singht就暗示大家"大数据"可能并没有那么靠谱.他指出,从查询开始分析数据本身就是一个死胡同,目前,研究人员还只是从收集到的数据中提取1%进行分析,而这1%被分析的数据却用来支配企业的革新和形成某种见解,这显然是不科学的.2013年5月,阿里集团王坚的一篇"大数据,你们都理解错了"的讲话,立刻抓牢人们的眼球,也值得

如何宏观理解大数据的流通版图

数据大规模流通与交易将会盛行,很大程度上已成为了业界对大数据未来应用模式的一个共识. 连在<中共中央关于制定国民经济和社会发展第十三个五年规划的建议>和国务院印发<促进大数据发展行动纲要>中,都作出了关于推进数据资源开放共享的战略规划,要求各级政府引导培育大数据交易市场,开展面向应用的数据交易试点,探索开展大数据衍生产品交易,鼓励产业链各环节的市场主体进行数据交换和交易,促进数据资源流通,建立健全数据资源交易机制,规范交易行为等一系列健全市场发展机制的思路与举措. 虽然上有政策.下

《深入理解大数据:大数据处理与编程实践》一一导读

前 言 2012年以来,大数据(Big Data)技术在全世界范围内迅猛发展,在全球学术界.工业界和各国政府得到了高度关注和重视,掀起了一场可与20世纪90年代的信息高速公路相提并论的发展热潮. 大数据技术如此重要,已经被我国政府提升到国家重大发展战略的高度.2014年我国政府工作报告中指出:"设立新兴产业创业创新平台,在新一代移动通信.集成电路.大数据.先进制造.新能源.新材料等方面赶超先进,引领未来产业发展".由此可见,大数据已经被我国政府列为推动国家科技创新和引领经济结构优化升级

机器理解大数据的秘密:聚类算法深度详解

看看下面这张图,有各种各样的虫子和蜗牛,你试试将它们分成不同的组别? 不是很难吧,先从找出其中的蜘蛛开始吧! 完成了吗?尽管这里并不一定有所谓的「正确答案」,但一般来说我们可以将这些虫子分成四组:蜘蛛.蜗牛.蝴蝶/飞蛾.蜜蜂/黄蜂. 很简单吧?即使虫子数量再多一倍你也能把它们分清楚,对吗?你只需要一点时间以及对昆虫学的热情就够了--其实就算有成千上万只虫子你也能将它们分开. 但对于一台机器而言,将这 10 个对象分类成几个有意义的分组却并不简单--在一门叫做组合学(combinatorics)的