大数据作为 IT 领域的一个概念已经被很多人所认同。正如 IT 领域的许多方面一样,新技术最初由大型企业先使用,然后在整个使用曲线的晚期,中小型企业才开始使用它。大数据似乎也经历了相同的过程。
随着大数据在真实世界中不断发展,它逐渐被应用于不那么大的数据元素。大部分标准认为较小的数据集正通过特定于大数据架构的方式被大数据工具处理。
尽管如此,人们一致认为未来会有更多的数据,而不是更少;更多数据源会将数据发送给企业,数据流动速度将有增无减。这就是大数据未来的用武之地。关于这个领域,出现的一个问题是大数据将位于何处(在内部还是在云中)以及您必须在哪些时刻考虑选择使用这些服务。
基于云的大数据解决方案的定义
像处理云的大部分解决方案一样,准确定义云可能有些棘手。大数据领域存在许多不同的云特征,没有一个定义是通用的(但一些定义比其他定义更好)。
首先,让我们来玩一个文字游戏。当传入数据的数量、种类和速度太大,以至于难以实时处理和使用当前的关系数据库时,就会达到大数据状态。在大数据项目中部署一些技术是对处理该条件和提供富有成效地使用该数据的新方法的尝试,而这意味着需要使用一些硬件并提供一种组织数据以便快速存储和快速读取数据的新方法。这就是大数据的本质。
它也是 Apache Hadoop、MapReduce 以及类似的项目和产品存在的理由。基于云的大数据环境需要能够引用外部数据,比如企业资源规划系统和其他内部数据库,定期使用新鲜数据来更新它。(这里的外部 表示大数据沙盒以外的地方。)
这一步负责数据的 “存储”。接下来您需要获得一种分析它将在何处影响业务流程并展示分析结果的方法。
大数据服务需要能够查看数据中心外部的各种不同的数据源,能够将新数据包含在数据中心内,容纳尚未考虑过的新数据元素,并提供一种分析和报告所有这些数据的方法。可伸缩性、灵活性和可扩展性方面的需求使它更适合大数据环境,而不是云服务。
开始实现基于云的大数据项目
这些考虑因素涵盖了实现大数据项目的基本评估条件。启动、实验和不断学习,您提供的关于想从大数据获取的信息的定义越多,您的实验就越有针对性,您就能越快地积累技能集。
1. 对所有机器数据建立通用的实时索引
这是大多数人所认为的大数据的核心;它常常相当于开源项目 Hadoop。不要将 Hadoop 中的索引与关系数据库中的索引搞混淆:Hadoop 索引是一种文件索引。因此,Hadoop 可获取许多不同类型的数据。
公司可能已被来自射频 ID (RFID) 移动、网站点击和其他可能结构化的数据(如果 IT 人员花一些时间将它们转换为结构化数据并放在关系数据库中)的要求所淹没。如果您知道将如何使用这些数据,如何在未来查询和访问它,那么在处理这些提要方面进行投资是值得的。
您无需知道数据的未来潜在用途,Hadoop 提供了解决办法。通过按原样获取传入的数据,大数据将数据定义步骤推迟到了执行分析时。在不会限制数据的未来使用的情况下,Hadoop 将数据分布在许多服务器上并持续跟踪数据位置。
2. 对实时数据和历史数据的自由搜索与分析
存储数据只是实现目标的道路的一部分。另一方面是信息需要相对容易地被找到。为此,最快的方法是提供一种快速(在实现方面,而不是响应时间方面)搜索功能。因此需要找到支持对非结构化数据进行文本搜索的工具。Apache Lucene就是一个在大数据环境中提供文本索引和搜索的常用工具。
从监视程序上直接获得响应,这会让人们模糊地认为所有信息都被正确存储且可以访问。此过程的管理步骤是为存储在分布式节点中的数据内容建立索引。搜索查询,然后并行访问分布式节点上的索引,以便提供更快的响应。
3. 自动从数据中发现有用的信息
这是采用大数据方案的一个重要业务原因。就像无法高效地将所有半结构化数据都迁移到关系数据库中一样,执行手动搜索和手动报告也会影响分析效率。
数据挖掘和预测分析工具正在快速向以下方向发展:能够将大数据用作分析数据来源的数据库,或者用作持续监视变更的数据库。所有数据挖掘工具都遵循此目标。某个人确定分析的用途,查看数据,然后开发能提供洞察或预测的统计模型。然后,需要将这些统计模型部署在大数据环境中,以执行持续评估。这部分操作应该是自动化的。
4. 监视数据并提供实时警告
寻找一个工具来监视大数据中的数据。一些工具能够创建被持续处理的查询,寻找要满足的条件。
我无法列出实时监视进入 Hadoop 中的数据的所有可能用法。假设大部分传入数据都是非结构化数据,而且不适用于关系数据库,那么实时监视可能是最仔细地检查数据元素的一种方式。
例如,您可在将冷冻食品中的 RFID 芯片存储于非冷冻区域时设置一个警告。该警告可直接发送到仓库中使用的移动设备,预防食品腐烂。
客户在店铺中的走动也是可监视的,可在具有战略性布局的监视器上播放针对站立在特定商品前的客户的广告。(这个非常新潮,可能稍微有点专制意味,但完全可能实现。)