大数据时代:企业如何赢得竞争优势

本文讲的是大数据时代:企业如何赢得竞争优势,我们已经进入了“大数据时代”,2011 IDC Digital Universe报告说,数据增长的速度已经超过了摩尔定律(Moore's Law)。这种趋势表明企业处理数据模式的转变,即隔离的孤岛正在被大型集群服务器所取代,这种服务器集群将数据与计算资源保存在一起。

  从另一种角度来看这种模式转变,这种转变表明数据增长的速度和数据量需要一种新的网络计算方法。在这方面,谷歌就是一个很好的例子。早在1998年谷歌推出测试版搜索引擎时,雅虎公司占主导地位,其他竞争者还包括infoseek、Lycos等,而在短短两年内,谷歌就成为主导搜索引擎供应商。直到2003年,谷歌发布一份关于MapReduce的文件,我们才有幸窥见到谷歌的后端架构。

  谷歌的架构显示了该公司如何能够索引更多数据,以更快地获得搜索结果,以及比所有竞争对手更有效和更具成本效益地获取这些结果。谷歌做出的转变是将复杂的数据分析任务分成简单的子任务,这些子任务在并行商品服务器中执行。单独进程被用于映射Map这些数据,然后将其缩小Reduce到中期或最终结果。这种MapReduce框架最终通过Apache的Hadoop供企业使用。

  Hadoop简史

  在2003年阅读了谷歌的文件后,雅虎工程师Doug Cutting开发了基于Java的MapReduce,将其命名为Hadoop。在2006年,Hadoop成为Apache软件基金会Lucene(一种流行的全文检索库)的子项目,并在2008年成为顶级Apache项目。

  从本质上讲,Hadoop提供了对大型商品计算机集群间的捕捉、组织、存储、搜索、共享、分析和可视化不同数据源(结构化、半结构化和非结构化),并能够从几十台服务器扩展到上千台服务器,每台服务器都提供本地计算和存储。

  Hadoop包含两个基本组成部分:首先是作为主要存储系统的Hadoop分布式文件系统(HDFS),HDFS复制和分发源数据块到服务器集群的计算节点,以由一个或多个应用程序进行分析。其次是MapReduce,它创建了一个软件框架和编程模型,用于编写能够并行处理大量分布式数据的应用程序。

  Apache Hadoop的开源性质创建了一个生态系统,使其功能、性能、可靠性和易用性都不断进步。

  保持简单性和可扩展性

  在名为“数据不合理的有效性”的文章中,来自谷歌的研究人员将简单的物理方程式(例如E = mc2)与其他学科对比,并指出,“涉及人类而非基本粒子的科学更适合使用简单的数学算法”。

  事实上,简单的公式完全能够解释复杂的自然世界,以及理解难以捉摸的人类行为,这也是为什么Hadoop普及的原因。

  研究人员发现,相对简单的算法适用于大规模数据集,并能产生惊人的结果。其中一个例子就是scene completion技术,它使用一个算法来消除图片上的某物(例如汽车),然后从成千上万的图片资料库中寻找合适的照片进行“修补”,当图片资料库的照片增加到数百万时,该算法表现不佳。当拥有足够的数据,这种简单的算法表现极为出色。寻找模式以及“修补”技术是当今很多数据分析应用程序的共同主题。

  数据分析还面临着另一个固有复杂性:非结构化数据与非结构化数据的增加。非结构化数据(例如日志文件、社交媒体、视频等)的规模和重要性同时在增加,并且有些结构化在经过一些变化后也失去了结构。传统分析技术在产生结果前需要对非结构化和半结构化数据进行大量预处理,并且如果预处理存在某种缺陷的话,产生的结果可能是错误的。

  Hadoop采用简单算法来分析原始形式的非结构化、半结构化和结构化数据以及产生有意义结果的能力是前所未有的,目前来看,也是无与伦比的。MapReduce使我们能够以渐进的方式来分析数据,而必须要进行复杂的数据转换或者其他数据预处理,或提前创建任何模式或整合数据。

  数据分析的价格和性能

  Hadoop不仅提供卓越的数据分析功能和结果,还比传统数据分析工具更具成本效益。其原因是传统数据分析工具的扩展数据分析能力主要遵循80/20规则:最初的小努力和付出能够带来大收益,但随着数据集发展为大数据,这种回报会减少。

  形成鲜明对比的是,Hadoop可以线性扩展,这是有效且符合成本效益的数据分析的关键因素。随着数据集的增长,传统数据分析环境规模呈指数增长,为获取洞察力需要投入更多额外费用,这最终让人望而却步。而对于Hadoop,服务器集群能够随着数据集数量和规模的增长而直接附加存储线性地扩展规模。

  Hadoop的这些优势是其在基于web的企业和数据密集型企业快速普及的主要原因。

  然而,Hadoop部署面临的主要挑战仍然是其文件系统。HDFS是append-only(只允许在这个文件之后追加数据)存储要求数据装在Hadoop集群中,然而再输出后处理以供不支持HDFS API的其他应用程序使用。

  Hadoop在较大型企业部署的另一个障碍是需要采取使环境可靠的特殊措施。需要不断监控Hadoop以确保单点故障不会导致灾难,在数据丢失的情况下,数据会被重新加载到Hadoop集群。

  冲破障碍

  Hadoop的这些问题已经成为过去式。开源社区创造了一个充满活力的生态系统,使Hadoop不断完善。一些公司现在正在提供基于开源Hadoop的商业产品。

  越来越多商业Hadoop产品的推出推动了Hadoop的更广泛普及。这些商业产品使Hadoop更易于整合到企业,以及提供企业级的性能和可靠性。实现这些改进的方法之一是使用现有的标准通信协议作为基础,来使传统环境和Hadoop环境无缝集成。

  结束还是刚刚开始?

  数据分析模式正在转变,这为企业带来了真正的机会。Hadoop让所有企业能够通过这种模式转变所提供的洞察力优势来获得显著的竞争优势。

  Hadoop无疑是一个改变游戏规则的技术,并且随着企业级商业Hadoop产品的推出,Hadoop本身也正在发生转变。这些下一代解决方案正引领新的数据分析模式。

作者: 邹铮

来源: IT168

原文标题:大数据时代:企业如何赢得竞争优势

时间: 2024-12-31 20:30:30

大数据时代:企业如何赢得竞争优势的相关文章

大数据时代:如何赢得竞争优势

我们已经进入了"大数据时代",2011 IDC Digital Universe报告说,数据增长的速度已经超过了摩尔定律(Moore's Law).这种趋势表明企业处理数据模式的转变,即隔离的孤岛正在被大型集群服务器所取代,这种服务器集群将数据与计算资源保存在一起. 从另一种角度来看这种模式转变,这种转变表明数据增长的速度和数据量需要一种新的网络计算方法.在这方面,谷歌就是一个很好的例子.早在1998年谷歌推出测试版搜索引擎时,雅虎公司占主导地位,其他竞争者还包括infoseek.Ly

大数据时代企业所需的三大技术

作为IT领域的关键词,"大数据"不断被大书特书,对其分析利用也备受关注.另一方面,靠IT技术.现有的组织和人才技能解决不了的难题也渐渐浮出水面.这就需要"分析数据及其与业务相结合的技术". 本文总结了将数据分析应用到业务中所需的技术,以及怎样在企业中实现有效的信息应用.同时,还列举了日本国内外的先进事例. 三大技术 下面,我们来看一下大数据时代企业所需的技术有哪些? 业务技能 这里的业务技能不是指提高业绩的能力,而是指将业务过程标准化.掌握各个过程中哪些信息需要输入

大数据时代企业投融资创新发展

大数据时代企业投融资创新发展的问题,涉及许多前沿科学技术问题. 上世纪90年代初,我在中央党校读博期间,研究决策科学,和它包含的认识论.如何依据有效信息,科学作出决策.当时主要接受了美国西蒙教授的理论,他是一位诺贝尔经济学奖得主,提出了"有限理性"理论,认为人的理性是有限的,只能从有限的信息量中,寻找相对好的决策.比如,要买一枝鲜花,并不需要跑遍所有的花店;要找一个合适的爱人,并不需要与全世界的女人谈一遍恋爱.差不多就行了. 我同意这种观点,但说差不多就行了,未免有点过于悲观和消极,而

赛迪顾问:大数据时代企业须打好信息资源整合攻坚战

ZDNET至顶网CIO与应用频道 06月23日 北京消息:数据被认为是新时期的基础生活资料与市场要素,重要程度不亚于物质资产和人力资本.近年来,企业产生的数据量呈指数级增长,信息资源爆炸式激增,其中非结构化的数据信息达到85%左右,传统的信息资源管理技术已经无法应对大数据时代的挑战.Hadoop等大数据技术和其他大数据工具和设备的出现以及云计算数据处理与应用模式的广泛运用,为企业处理日益增长的海量非结构化数据提供了高效.可扩展的低成本解决方案,弥补了传统关系型数据库或数据仓库处理非结构化数据方面

大数据时代 企业须打好信息资源攻坚战

文章讲的是大数据时代 企业须打好信息资源攻坚战,数据被认为是新时期的基础生活资料与市场要素,重要程度不亚于物质资产和人力资本.近年来,企业产生的数据量呈指数级增长,信息资源爆炸式激增,其中非结构化的数据信息达到85%左右,传统的信息资源管理技术已经无法应对大数据时代的挑战.大数据技术和其他大数据工具与设备的出现,以及云计算数据处理与应用模式的广泛运用,为企业处理日益增长的海量非结构化数据提供了高效.可扩展的低成本解决方案,弥补了传统关系型数据库或数据仓库处理非结构化数据方面的不足,深化和拓展了企

大数据时代企业安全面临巨大威胁 360腾讯加紧布局

2014中国互联网大会于日前在北京国际会议中心召开,在8月27日上午的中国网络安全分论坛上,对大数据时代的企业安全的探讨成为论坛上一个重要的话题,360和腾讯等安全领域龙头均在演讲或讨论中透露出下一步在大数据时代企业安全上的布局. 近一两年,大数据这个词在互联网上火了起来,但究竟什么是大数据,对于普通用户来说还是有些难懂.其实每位用户在电脑.手机屏幕上看到的任何一个简单易用的交互窗口,背后都是有大数据引擎给予支撑. 腾讯副总裁丁珂在其题为<大数据时代的企业安全新格局>的演讲中提到,大数据引擎成

IT现状调查:大数据时代 企业面临挑战

[IT168 调查报告]2012-2013中国IT技术趋势大调查活动于2012年10月16日启动,历经1个月的时间.在线调查期间,受到了来自ITPUB.ChinaUnix(以下简称CU)以及其它合作网站的网友的极大关注和积极参与.目前调查已经完满结束,所有的数据都在后台整理和统计之中.本次网上调查共回收调查问卷17,101份问卷,其中合格问卷为14,522份.从整体上看,今年的调查更专注,无论从数量上还是质量上都较去年有比较大的提高. 本次调查的内容涉及:企业信息化.http://www.ali

大数据时代企业信息化如何应对?

随着科技进步.社会发展,信息量越来越大,数据渗透到各行各业,不少企业的数据也越来越被重视,博宏云谷为客户建立了专门的大数据服务部门,对客户的需要数据进行收集与分析,提供基于大数据的运营指导.未来将会是一个大数据应用的时代,每时每刻数据都在膨胀增长,海量的数据将会成为企业制定战略决策的重要参照,关于大数据时代对企业信息化的影响,将从以下三个方面浅谈. 1.辅助企业认识用户 目前,对于企业来说,数据越来越重要,企业可以通过海量的数据的挖掘与分析,充分了解到用户需求 .电商网站可以通过消费者购买商品的

大数据时代企业CDO的新玩儿法

我们正在历经一场由大数据应用的普及引发的变革,即使如蓝色巨人IBM这样的传统巨头也在通过及时转型来应对这场技术浪潮的席卷.IBM认为,大数据与工业时代的蒸汽.电力.石油一样,都是重要的未来资源,企业需要专业人才掌握并利用这种资源,来推动这个时代的进步和发展,就好像当时有人利用石油和电力推动工业时代进步一样. 这时,企业CDO(首席数据官)责无旁贷地将挑起这个重任.CDO所关注的已经不止于企业数据库.数据工具和数据分析工具的选型,而是如何利用这些工具对企业内部.外部行业数据进行分析,并根据分析结果

大数据+时代 企业与用户如何做有温度的互动?

综艺热词.产品爆款.热门话题.刷屏--移动互联网时代,大众的生活变得多姿多彩,背后呈现的是我们的生活正在"网格"化,众多的数据交叉其中,留给行业无限探索空间.随着大数据应用和技术的不断深入,数据正在成为企业分析过去.把握当下.预测未来的重要依托,大数据+时代,数据对行业的影响和渗透愈发深远. 2月1日,国双数据中心发布了<2015中国互联网发展报告>.基于强大数据交互平台,将PC端.移动端等多个来源的数据进行聚合.关联与交叉,灵活运用多维度数据分析方法,该数据报告解读了大数