在云中搭建一个大数据环境需要考虑的十大因素

大数据作为 IT 领域的一个概念已经被很多人所认同。正如 IT 领域的许多方面一样,新技术最初由大型企业先使用,然后在整个使用曲线的晚期,中小型企业才开始使用它。大数据似乎也经历了相同的过程。

随着大数据在真实世界中不断发展,它逐渐被应用于不那么大的数据元素。大部分标准认为较小的数据集正通过特定于大数据架构的方式被大数据工具处理。

尽管如此,人们一致认为未来会有更多的数据,而不是更少;更多数据源会将数据发送给企业,数据流动速度将有增无减。这就是大数据未来的用武之地。关于这个领域,出现的一个问题是大数据将位于何处(在内部还是在云中)以及您必须在哪些时刻考虑选择使用这些服务。

基于云的大数据解决方案的定义

像处理云的大部分解决方案一样,准确定义云可能有些棘手。大数据领域存在许多不同的云特征,没有一个定义是通用的(但一些定义比其他定义更好)。

首先,让我们来玩一个文字游戏。当传入数据的数量、种类和速度太大,以至于难以实时处理和使用当前的关系数据库时,就会达到大数据状态。在大数据项目中部署一些技术是对处理该条件和提供富有成效地使用该数据的新方法的尝试,而这意味着需要使用一些硬件并提供一种组织数据以便快速存储和快速读取数据的新方法。这就是大数据的本质。

它也是 Apache Hadoop、MapReduce 以及类似的项目和产品存在的理由。基于云的大数据环境需要能够引用外部数据,比如企业资源规划系统和其他内部数据库,定期使用新鲜数据来更新它。(这里的外部 表示大数据沙盒以外的地方。)

这一步负责数据的 “存储”。接下来您需要获得一种分析它将在何处影响业务流程并展示分析结果的方法。

大数据服务需要能够查看数据中心外部的各种不同的数据源,能够将新数据包含在数据中心内,容纳尚未考虑过的新数据元素,并提供一种分析和报告所有这些数据的方法。可伸缩性、灵活性和可扩展性方面的需求使它更适合大数据环境,而不是云服务。

开始实现基于云的大数据项目

这些考虑因素涵盖了实现大数据项目的基本评估条件。启动、实验和不断学习,您提供的关于想从大数据获取的信息的定义越多,您的实验就越有针对性,您就能越快地积累技能集。

1. 对所有机器数据建立通用的实时索引

这是大多数人所认为的大数据的核心;它常常相当于开源项目 Hadoop。不要将 Hadoop 中的索引与关系数据库中的索引搞混淆:Hadoop 索引是一种文件索引。因此,Hadoop 可获取许多不同类型的数据。

公司可能已被来自射频 ID (RFID) 移动、网站点击和其他可能结构化的数据(如果 IT 人员花一些时间将它们转换为结构化数据并放在关系数据库中)的要求所淹没。如果您知道将如何使用这些数据,如何在未来查询和访问它,那么在处理这些提要方面进行投资是值得的。

您无需知道数据的未来潜在用途,Hadoop 提供了解决办法。通过按原样获取传入的数据,大数据将数据定义步骤推迟到了执行分析时。在不会限制数据的未来使用的情况下,Hadoop 将数据分布在许多服务器上并持续跟踪数据位置。

2. 对实时数据和历史数据的自由搜索与分析

存储数据只是实现目标的道路的一部分。另一方面是信息需要相对容易地被找到。为此,最快的方法是提供一种快速(在实现方面,而不是响应时间方面)搜索功能。因此需要找到支持对非结构化数据进行文本搜索的工具。Apache Lucene就是一个在大数据环境中提供文本索引和搜索的常用工具。

从监视程序上直接获得响应,这会让人们模糊地认为所有信息都被正确存储且可以访问。此过程的管理步骤是为存储在分布式节点中的数据内容建立索引。搜索查询,然后并行访问分布式节点上的索引,以便提供更快的响应。

3. 自动从数据中发现有用的信息

这是采用大数据方案的一个重要业务原因。就像无法高效地将所有半结构化数据都迁移到关系数据库中一样,执行手动搜索和手动报告也会影响分析效率。

数据挖掘和预测分析工具正在快速向以下方向发展:能够将大数据用作分析数据来源的数据库,或者用作持续监视变更的数据库。所有数据挖掘工具都遵循此目标。某个人确定分析的用途,查看数据,然后开发能提供洞察或预测的统计模型。然后,需要将这些统计模型部署在大数据环境中,以执行持续评估。这部分操作应该是自动化的。

4. 监视数据并提供实时警告

寻找一个工具来监视大数据中的数据。一些工具能够创建被持续处理的查询,寻找要满足的条件。

我无法列出实时监视进入 Hadoop 中的数据的所有可能用法。假设大部分传入数据都是非结构化数据,而且不适用于关系数据库,那么实时监视可能是最仔细地检查数据元素的一种方式。

例如,您可在将冷冻食品中的 RFID 芯片存储于非冷冻区域时设置一个警告。该警告可直接发送到仓库中使用的移动设备,预防食品腐烂。

客户在店铺中的走动也是可监视的,可在具有战略性布局的监视器上播放针对站立在特定商品前的客户的广告。(这个非常新潮,可能稍微有点专制意味,但完全可能实现。)

时间: 2024-10-27 12:47:11

在云中搭建一个大数据环境需要考虑的十大因素的相关文章

构思、搭建和维护私有云的十大步骤

构建私有云并不是一项快速工程.始于理解企业环境对于云的期望和定义,继而在已经创建的模型上进行构架.要确保涵盖整个组织.其所有的流程以及构建云计算的技术.下面是构思.搭建和维护私有云的十大步骤. 1. 确定你要从云中获得什么 云端之旅是一种巨大的IT趋势.问题在于术语云计算对于每个人的意义也有所不同.为了开始这项旅程,企业需要务实的云计算目标.很多企业发现他们在朝云计算看齐的时候,要实现虚拟化的承诺,像数据中心物理硬件的整合.节能和节省成本.还有些人发现其虚拟化进程要进入下一个阶段,标准化和自动化

2017年大数据领域的十大趋势

文章讲的是2017年大数据领域的十大趋势,曾有媒体将2013年称为"大数据元年",经过两三年大数据依然热度不减,但是也有专家认为前几年大数据一直处于一个很尴尬的局面,大数据不接地气,人人都在谈大数据,但真正应用大数据的人很少.2016年,各行各业的大数据应用都渐渐从空洞的理论落地,所以很多专家认为2016年才是真正意义上的大数据元年. 无论如何,大数据已经成为IT领域的流行趋势.据不完全统计,2016年1-6月,全球大数据行业共计发生157起投融资事件,涉及金额超过600亿元,亚马逊.

IDC周震刚:中国大数据市场的十大预测

2012年7月24日,主题为"芯动大数据 智领大机遇"的英特尔大数据论坛在北京举行.会上,IDC中国企业级系统与软件研究部高级研究经理周震刚分享了大数据市场的观察. IDC中国企业级系统与软件研究部高级研究经理周震刚 周震刚表示,IDC一直把大数据.云和移动以及社交这四个主题当做未来IT的主要方向.IDC在大数据方面已经做了大概三四年的研究,IDC中国从去年开始对大数据市场做了深入研究. 什么是大数据?--四个"V" 周震刚介绍道,IDC对大数据的定义是四个&quo

大数据营销的十大切入点

2013年似乎人人都在谈论大数据,然而说得云里雾里者多.许多企业家更关心的事是:如何才能真正找到大数据营销的切入点? 大数据营销的十大切入点 许多人感觉到大数据时代正在到来,但往往只是一种朦胧的感觉,对于其真正对营销带来的威力可以用一个时髦的词来形容--不明觉厉.实际上,还是应尽量弄明白,才会明白其厉害之处.对于多数企业而言,大数据营销的主要价值源于以下几个方面. 第一,用户行为与特征分析.显然,只要积累足够的用户数据,就能分析出用户的喜好与购买习惯,甚至做到"比用户更了解用户自己".

全国首部《大数据蓝皮书》指出:中国大数据发展呈现十大新趋势

大数据战略重点实验室研究编著.社会科学文献出版社出版的<大数据蓝皮书:中国大数据发展报告No.1>(简称<大数据蓝皮书>)5月28日正式发布.作为全国首部<大数据蓝皮书>,从制度.技术.产业和学科建设等层面对大数据的发展进行分析与研判,并提出中国大数据发展的十大新趋势. 趋势之一:丰富细致的政策体系助推大数据落地.从中央到地方,更加丰富的配套政策与实施细则将促进大数据加快落地,更多地方政府积极推进大数据发展,并在大数据政用.商用.民用领域打造大数据应用的典范. 趋势之二

贵阳打造创新型中心城市 大数据引领打造十大工程

<中共贵阳市委关于以大数据为引领加快打造创新型中心城市的意见>提出四大配套文件,其中<以大数据为引领打造创新型中心城市的十大重点工程>提出要打造数据资源汇聚工程,数据共享开放工程,数据铁笼工程,数据政务工程,数据民生工程,数据扶贫工程,数据产业集聚工程,大数据助推产业升级工程,数据金融工程,以及数据立法.安全与标准工程十大工程. 其中提出,贵阳市将建设"云上贵州·贵阳平台",搭建统一汇聚全市各部门政务数据和公共数据的贵阳市政务数据资源中心,同时大力引导和鼓励其他

基于Hadoop的大数据企业前十大集合

超人气Hadoop初创公司前两名 这已经不再是什么秘密了,全球的数据正在以几何数字增长,借助这股数据浪潮在全球范围内迅速成长起来一大批Hadoop的初创型公司.作为Apache的一个开源分支Hadoop几乎已经成为了大数据的代言词.据Gartner估计,目前的Hadoop生态系统市场价值大约为77,000,000: 该研究公司预计,这一数字到2016年将迅速增加到8.13亿美元. 在Hadoop市场快速发展的大环境下,出现了大量的初创型企业来分这将近十亿美元的大馅饼. 1.Platfora 他们

2017年大数据发展的十大趋势以及在各行业的应用潜力

2016年,大数据已从前两年的预期膨胀阶段.炒作阶段转入理性发展阶段.落地应用阶段.2017年,大数据依然处于理性发展期,依然存在诸多挑战,但前景依然非常乐观.2017年大数据的发展呈现十大趋势: 趋势1:越来越多的企业实现数据孤岛的打通,驱动大数据发挥更强的威力 企业启动大数据最重要的挑战是数据的碎片化.在很多企业中尤其是大型的企业,数据常常散落在不同部门,而且这些数据存在不同的数据仓库中,不同部门的数据技术也有可能不通,导致企业内部数据无法打通.若不打通,大数据的价值则难以挖掘.大数据需要不

PS大神分享修图十大秘技

  PS的重要用途之一就是用于图像的后期处理中,我们看到的许多好看的杂志封面.广告图片均是PS后期修图处理的成果.这次给大家分享国外PS大神Tony Magli的十大修图技巧. 在本PS教程中,我们将主要学习如何用PS来去除多余毛发.消除斑点.磨皮.美瞳等等.只要掌握了这些PS技巧,不管摄影技术如何,在PS后期修图后,你的人物肖像图成品质量至少能提升一个档次.当然,这些PS技巧难度也不大,相当容易掌握,一起来学习吧: 一.去除多余毛发 在拍摄人物照的时候,人们很容易忽略头发的柔顺度.以图01为例