4.8 理解大数据
当物联网从各种各样的设备中收集到的数据被创造性地使用时,就会变得更加有价值。这就是所谓的大数据的技术问题。这是一个描述大量数据的简单术语——数据集合如此之大,以至于无法用传统的关系型数据库技术来处理了。为了体现物联网真正的价值,需要开发处理海量数据的应用以建立连接和相关性,从而达到智能决策的效果。总的来说就是要把从各处收集的传感器数据连接起来,得到一个非常独到的结论。
处理物联网所收集的大数据实际上会面临3个挑战。首先是数据的获取,其次是数据的存储,最后是数据的分析。
4.8.1 数据获取
数据获取(Data Harvesting,也称作Data Ingestion)是一个多步骤的过程,包括从各个设备收集数据,然后将数据传送到某个中心数据库。这主要是关于设备和网络的问题,当然,也包括数据库。前面我们基本上已经讲解了相关的内容。
4.8.2 数据存储
数据存储看起来很简单,但这种说法非常有欺骗性。你所需要的就是很多的服务器,也许是云服务器,以提供足够的能力来存储所有收集到的数据。这听起来很简单,特别是看到存储的成本不断下降的时候。
问题当然不会那么简单,即使这是一个老问题。很多公司就是被存储层面的问题挡住了而一直没能实现更重要的分析功能。
这可真糟糕!因为实际上有很多公司可以提供解决数据库存储需要的方法,而且有好几种这样的方法可用。
一个流行的方法就是找一家提供“数据库即服务(Database as a Service,DBaaS)”能力的公司,通常都是基于云的数据仓库。已经有很多选择,包括Amazon Redshift、来自Hortonworks的Enterprise Hadoop以及Cloudera Enterprise。这些数据库管理和自动化服务缓解了公司安装、管理和运行他们自己的大型数据库的需要——从而把珍贵的资源释放出来进行更重要的数据分析。
管理服务提供商(Managed Service Provider,MSP)与DBaaS提供商很相似,但是它们提供了更加有用的服务,比如All Covered和Treasure Data。这些公司不仅能够进行外包数据的收集和存储工作,还可以享受基本分析功能,通常是从主数据中抽取特定的信息。利用MSP来完成最费时耗力的工作,一个公司就可以把它的注意力聚焦在数据分析的细节上——并根据那些分析进一步采取措施。
4.8.3 数据分析
这是第三个挑战,也是最具挑战性的。假设一个公司可以外包数据的获取和存储,那么现在的问题就是如何从收集到的海量数据中抽取价值。换句话说,当收集到了海量数据之后,一个公司要怎么做呢?
为了处理这个数量级的数据,必须开发用来分析所收集的数据的趋势、模式和压点(pressure point)的应用。这是一个巨大的计算挑战,特别是当你希望实时呈现结果的时候。
当处理这个数量级的数据的时候,数据经常是以一种非结构化的形式收集(和存储)的,主要问题之一就是你要确保没有一不小心忽略重要的东西而在根本无关紧要的数据上花费了太多的时间。对于特定的应用,很有必要把麦粒和糠皮分离开。
注意
因为将来所有的物联网数据都需要分析,人力资源团队预测对数据分析专家的需求会很快上升。这应该是一个可以进入的好职业。
但是仅仅分析数据是不够的。对于一个真正从海量的潜在实时数据流中受益的公司,必须建立一种数据驱动决策的文化。这就是说,公司需要按照数据所指引的方向行进——而不是按照老式的管理层所认为的方向行进。这是个勇敢的新世界,是由物联网所收集的新数据所驱动的。有些公司将茁壮成长,而另一些则相反。