如何逃出大数据困境?开源或是关键手段

现在的数据不再整齐划一地按行和列排列,而是大规模地以非结构化形式堆放在数据库中。企业创建、收集、访问、分享和分析这些不同类型的数据以提高经营业绩。曾经用于进行数据分析的商业智能已经不再适用于目前的异构">数据类型,包括电子邮件、字处理文档、协作网站和机器生成的数据等。

  与此同时,繁琐和昂贵的专有企业搜索产品不能处理现有的结构化数据存储,并且不能以具有成本效益的方式来测量数据的规模和速度。现在我们的目的是找到一种能够对所有数据存储进行搜索、发现和分析(SDA)的解决方案,很多公司试图寻求开源方面的搜索功能应用程序,例如Apache Solr,以及大数据解决方案,例如Apache Hadoop,能够为他们提供及时和具有成本效益的对不断增长的数据总体的访问能力和洞察力。

  数据现状

  企业比以往任何时候都更加需要数据分析,但是数据的性质已经发生了变化。在不久前,企业需要分析的数据主要位于结构化数据库和电子表格中。但是,在过去几年中,一切都改变了。我们现在越来越多的(有时候是完全)依赖于数字形式的沟通。除了电子文件外,我们还有电子邮件、短信、博客及其评论、互动式网站(包括wikis和其他协作网站以及资料库等)。

  再有就是机器生成的数据。你的汽车、手机、电度表都在产生数据,很快你的冰箱和咖啡机也会开始产生数据。事实上,人类和数字数据间的每个互动已经成熟到可以被捕捉和分析,这些信息并不整齐,但是这些信息是极其宝贵的。目前的企业搜索解决方案能够提供对这种非结构化数据的洞察力,但是它们并不能很好的进行测量,并且它们并不提供对结构化数据和非结构化数据必须的分析。

  执行和测量分析以及利用ad-hoc访问能力的需要颇为引人注目。企业想要保持灵活性和竞争力,员工必须能够执行更快和更强大的搜索以提供对数据更好的洞察力,使他们能够发现之前隐藏的或者无法访问的数据中的连接。

  很多企业对于用户和这片数据海洋(不只是原始数据)之间的相互作用变得越来越感兴趣,因为他们相信对这些互动作用的分析能够帮助他们更好地对客户做出响应,更快地认识业务和客户趋势,并作出更好的业务决策。这通常也是在这个时候“大数据”一词被大多数企业意识到。

  在运营方面,企业需要确保他们能够成功地驾驭日益复杂的法律、法规和合规环境。这需要企业识别、存储、搜索和生成相关文件的能力。如果没有能够经济有效地分析内容的搜索和发现工具,预算将不堪重负,业务也将逐渐缺乏对员工和客户对企业的意义的真正性质失去洞察力。

(责任编辑:蒙遗善)

时间: 2024-09-21 03:29:11

如何逃出大数据困境?开源或是关键手段的相关文章

脱掉大数据外衣 走出大数据困境

<企业观察报>记者 简文超 如果要评选最近两年出现在媒体上的十大热词,大数据毫无意外会入选其中. 然而,似乎所有人都意识到大数据的能力,但却找不到运用大数据的方法.不管是企业.政府或者其他社团组织,大数据离他们那么近,却那么远. "大数据成了人们竞相议论的热词,但鲜有人提及这场巨大变革中人们需要具备的能力,无数的企业及个人忘'数'兴叹." 作为阿里巴巴集团商业智能部副总裁.国内大数据实践的先行者和数据观察家,拥有十几年丰富的数据实战经验的车品觉,或许是国内对于如何利用大数据

人才储备不足映射出“大数据”技术缺陷

本文讲的是人才储备不足映射出"大数据"技术缺陷,根据咨询师和IT经理的观点,"大数据"分析的最大挑战可以简单地归结为两个方面:1.技术尚未成且用户体验不佳;2.缺乏相关领域的技术人才储备. 许多大数据技术(如Hadoop MapReduce)都来自开源社区,由致力于研究高效处理大容量信息的互联网志愿者进行开发,如Google和Yahoo,其中包括结构化和非结构化数据.因此,大多数技术在成熟度和可访问性方面都不及传统数据库和数据管理套件,而且可用于帮助数据仓库和分析人

解决大数据的开源工具

针对大数据的开源源代码平台变得十分流行.在过去的几个月里, 似乎几乎每个人都感觉到了影响. 低成本.灵活性和适用于受过训练的人员是开源繁荣的主要原因.Hadoop.R和NoSQL是现在许多企业大数据策略的支柱,不管他们是否用它管理非结构化数据或执行复杂的统计分析." 几乎难以跟上它:SAP AG最近发布了一个新的产品, SAP BusinessObjects预测分析,软件整合了开源R语言的算法,该语言广泛使用在针对高级统计模型的学术社区. 几周之前, Teradata公司宣布其新的整合分析组合将

大数据落地决胜的关键——百分点BASIC模型

ZD至顶网软件频道9月9日消息: 背景:9月5日,国务院发布关于<促进大数据发展行动纲要>,探索大数据与传统行业协同发展的新业态.新模式.促进传统产业转型升级和新兴产业发展,培育新的经济增长点.形成一批满足大数据重大应用需求的产品.系统和解决方案,建立安全可信的大数据技术体系,大数据产品和服务达到国际先进水平,国内市场占有率显著提高. 昨日,对于媒体人来说是忙碌的,散布在京城大大小小的发布会近20场,对主办方来说也绝不轻松,要"有料"的同时还要"有人气"

大数据成企业制胜关键 本土CRM需加紧

物联网.云计算.移动互联网.手机.平板电脑.PC以及遍布全球各种各样的传感器,的数据来源,大数据变成了现今最令人热议的话题.大数据技术让各种各样类型的数据变成能够快速获得有价值信息.CRM作为可以帮助企业获得客户资源的管理平台面对大数据的到来应如何加紧. 大数据转变为先 制胜关键 随着数据源呈现指数级增长,信息的数量及复杂程度快速扩大,从海量数据中提取信息的能力正快速成为战略性的强制要求.2011年4月,Gartner发布<大数据仅仅是海量信息管理的开端>报告.报告称:"对大数据的关

联想创投大数据基于开源技术 助力全球智能制造

由中国开源软件推进联盟(COPU)主办的第十一届开源中国开源世界高峰论坛(简称论坛)于2016年6月24日-25日在京举办.这是我国开源界一年一度的嘉年华盛会,也是具有深远影响的国际学术论坛.论坛有力促进开源社区.企业.院校.科研机构.用户之间的相互交流与合作,推动开源软件在中国及全球的发展.联想创投集团大数据业务在此次高峰论坛上展示了联想大数据平台如何协助企业应对全球化挑战和复杂的开源技术,探索出一条制造企业全球大数据方案之路,并运用开源大数据技术助力全球智能制造.联想集团副总裁.首席研究员田

对话Hadoop之父Doug Cutting|大数据和开源的未来

前言 对中国大数据产业来说,2016年是从垂直领域野蛮生长到爆发全国范围关注热潮的一个转折点.不论是人山人海巨头云集的贵阳数博会,还是首次在华举办的全球顶级大数据会议Strata + Hadoop World,都揭示了中国大数据产业发展的澎湃动力. 在Hadoop生态领域,Cloudera是规模最大.知名度最高的企业,也是当前大数据领域最强有力的解决方案服务商之一.带着对中国大数据市场的满满诚意,Cloudera创始人.董事长兼首席战略官Mike Olson以及Hadoop之父.Cloudera

荐六十款针对Hadoop和大数据顶级开源工具

说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱.弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,"100%的大公司"会采用Hadoop.Market Research的一份报告预测,到2011年,Hadoop市场会以58%的年复合增长率(CAGR)高速增长:到2020年,市场产值会超过10亿美元.IBM更是非常看好开源大数据工具,派出了3500名研究人员开发Apache Spark,这个工具是Hadoop生态系统的一

大数据相关开源系统简介汇总

本片博客介绍大数据相关的开源系统以及他们对应的一句话简介, 对于各位想大概了解大数据都有哪些开源系统的同学有帮助.各种相关开源系统简介:   如下是Apache基金支持的开源软件 hdfs   跟GFS类似, 一个分布式文件系统.   mapreduce   跟Google的MapReduce类似, 一个典型的简单的分布式计算框架.   yarn   资源管理系统, 跟Mesos类比.   Avro   跟PB类似, 用于将数据结构序列化成字节码, 在不同的语言之间切换.   官方举例是将C转换