卢东明:Hadoop不能适用所有大数据场

文章讲的是卢东明:Hadoop不能适用所有大数据场,“大数据”自诞生之日起,业界对它的概念、技术和应用就存在一定争议。究竟什么是大数据?有哪些大数据技术?大数据的未来是怎样的?每个人都有自己的理解。在2013大数据产品评选活动举办之际,笔者采访了此次担任评委的几位专家学者,看看专家眼中的“大数据”是什么样的?

  近日,在一次微访谈活动中,SAP亚太区数据库解决方案技术总监卢东明回答了笔者的提问,分享了对大数据的几点看法,笔者整理如下:


▲SAP亚太区数据库解决方案技术总监卢东明

  小数据是结构化的

  几天和@赵国栋TMT 一起聊大数据,我说现在最难的问题就是“定义”什么是大数据。我认为大数据目前处于发展的早期,很多观点都不错,但是我不认为能够、也不喜欢用简单的几个标签来定义“什么是“大数据” 。“大数据”中最有活力的词是“大”,但是“大”是个相对的词,各个时期,各个阶段,各个角度所谈的大是不一样的,数据量也只是大数据中的一个指标,有点行业,例如互联网,电信,很容易收集到TB级,甚至百TB级的数据,但是并不等于有些深度挖掘的公司在百GB级不可能发掘出价值。大数据的时代了解何为“小数据”也许更可以帮助大家理解到底什么是“大数据”。我认为,“小数据”是结构化的、现有的IT技术能力上已经有效、充分地掌握,并且在人们生活、工作中持续地发挥着作用的信息都可以归为小数据的范畴,而所有超出现有能力的信息类型、信息技术都属于大数据。这样定义外延的方法也许比试图给一个充分而且必要的定义要容易理解一些。

  不要盲目跟风Hadoop

  Hadoop是大数据技术的一个优秀代表,但是同时,它只是优秀代表中的一个,有很多技术在帮助企业拓展数据的获取、存储、使用、分析能力,在这个问题上,千万不要人云亦云,千万不要跟风。 大数据的技术有很多,数据流分析技术CEP,机器学习技术Mahout,数据分析的软件R语言,列式数据库的技术Sybase IQ,SAP HANA等都是值得投入精力学习掌握的技术点。但是在这些技术点的学习中,需要多了解应用场景。Hadoop的应用在互联网公司很多,但是互联网业务数据完整性一致性要求都不是特别高,谷歌的搜索并不是真正实时的内容,也不要求严格一致,这些技术可以应付,如果生搬硬套,把Hadoop拿来支持电信、金融这样的强结构化数据的应用就不对。

  对大数据未来的三点担忧

  关于大数据的期待我就不多说了,大家都期望着无处不大数据,无处不分析,无处不方便。说说担忧吧:一是,大数据的发展如果没有相应的法律跟上的话,人们的隐私会受到前所未有的攻击;二是,政府的又一轮投资是必然的,但是担心政府又被忽悠了;三是,大数据分析的人才储备不足。

作者:小野

来源:IT168

原文链接:卢东明:Hadoop不能适用所有大数据场

时间: 2024-08-20 14:01:57

卢东明:Hadoop不能适用所有大数据场的相关文章

IBM面向Hadoop的PureData推大数据机

随着企业大数据项目的进展,数据分析速度的重要性正日渐凸显.为了进一步提升大数据分析速度,IBM本周三在加州发布了一款Hadoop大数据机,旨在帮助企业用户实现对更多种类和更大规模数据进行(更低成本地)实时分析的需求. IBM软件信息管理部门总经理Bob Picciano表示: 企业正被大数据洪水围困,作为厂商IBM必须向客户提供更好的工具掘金大数据,这些工具必须够快,能够处理海量数据同时还要更容易使用. 在Gartner三月份发布的BI魔力四象限图中,IBM是所有厂商中最有远见和创新力"visi

Hadoop环境中管理大数据存储八大技巧

在现如今,随着IT互联网信息技术的飞速发展和进步.目前大数据行业也越来越火爆,从而导致国内大数据人才也极度缺乏,大讲台了解这一情况后专门在网上开通了这一门大数据培训课程,下面来介绍一下关于Hadoop环境中管理大数据存储技巧吧. 1.分布式存储 传统化集中式存储存在已有一段时间.但大数据并非真的适合集中式存储架构.Hadoop设计用于将计算更接近数据节点,同时采用了HDFS文件系统的大规模横向扩展功能. 虽然,通常解决Hadoop管理自身数据低效性的方案是将Hadoop数据存储在SAN上.但这也

国内首个Hadoop一站式产品 直面大数据

本文讲的是国内首个Hadoop一站式产品 直面大数据,2012年5月31日消息,精诚集团今天正式发布Big Data解决方案品牌Etu.作为国内首个基于Hadoop的Appliance产品,Etu能够为用户提供软硬结合的端到端的大数据一体化解决方案,协助企业从每天大量涌现的数据中发掘商业智能,找出更多潜在的商机.精诚云中心暨Etu负责人蒋居裕.中科院计算所.Hadoop China的发起人查礼博士.Etu首席顾问陈昭宇出席了发布会,并发表主题演讲,介绍了Etu产品特点.大数据发展对企业的影响,以

Hadoop不是解决大数据问题的唯一方案

第1页:对于大数据的渴望 hadoop通常被认定是能够帮助你解决所有问题的唯一方案. 当人们提到"大数据"或是"数据分析"等相关问题的时候,会听到脱口而出的回答:hadoop!实际上hadoop被设计和建造出来,是用来解决一系列特 定问题的.对某些问题来说,hadoop至多算是一个不好的选择.对另一些问题来说,选择hadoop甚至会是一个错误.对于数据转换的操作,或者更广泛 意义上的抽取-转换-装载的操作(译者注:extraction transformation

联通黄文良:“Hadoop+至强”应对大数据

7月24日,以"芯动大数据,智领大机遇"为主题的英特尔大数据论坛在北京举行.中国联通研究院副院长黄文良先生在大会上介绍了联通应用英特尔Hadoop发行版和基于英特尔至强处理器平台的服务器应对大数据挑战的真实案例. 伴随着智能手机的普及,广大用户利用手机上网和社交越来越频繁,这由此也带来了一个新的挑战:用户想清清楚楚了解自己的上网流量究竟用在了哪里?在这种状况下,联通从去年开始部署针对移动互联网用户的上网记录.和其他运营商以省为单位不同,联通是在全国部署了一套上网记录查阅系统,用户可以通

Hadoop之父勾勒大数据平台的未来

Apache Haddo是一个批处理计算引擎,它是大数据核心的开源软件框架.Hadoop并不适用于真正实时数据可见性所需要的在线互动式数据处理,是这样的吗?Hadoop创造者兼Apache Hadoop项目创始人(同时也是Cloudera公司首席架构师)Doug Cutting表示,他相信Hadoop有一个超越批处理的未来. Cutting表示:"批处理有用武之地,例如你需要移动大量数据以及分析所有数据的时候,但我认为,人们真正想要的是批处理和在线计算的结合体.Hadoop将成为企业未来的主流数

Hadoop平台管理的大数据建立索引的方法和指南

具体来讲,我们将介绍如何将存储在 IBM 的 InfoSphere® BigInsights(一个基于 Hadoop 的平台)中的数据推送到 InfoSphere Data Explorer.InfoSphere Data Explorer 是一个复杂的工具,支持业务用户探查并组合来自多个企业和外部数据源的数据. 如果您关注过许多围绕大数据的早期案例分析,您可能相信 "您根本不知道您不知道什么" 的说法.确实,大数据应用程序常常专注于从平时可能出于多种原因而导致被丢弃或忽略的数据中收集

当Hadoop SQL工具与大数据框架携手同行

目前,SQL-on-Hadoop的采用率仍然偏低,但是其发展似乎是与Hadoop本身的采用有着相似的步调.2015年由IT研究和教育机构TDWI进行的一项对新兴技术的调查证实了这一结论. 在320位受访者中只有16%的人表示他们所在的企业正在使用商业SQL-on-Hadoop引擎作为商业智能或分析应用程序的一部分: 344位受访者中有22%的人说Hadoop SQL技术正用于管理数据.在后一种情况中,部署水平与前一种是接近的,而这也符合调查当时以及计划三年内的情况,这表明大多数Hadoop用户同

Hadoop之父勾勒大数据平台未来

"大数据不是炒作,也不是泡沫.Hadoop在未来将继续追随谷歌的脚步."Hadoop的创造者兼Apache Hadoop项目创始人Doug Cutting近日表示. 作为一个批处理计算引擎,Apache Hadoop是大数据核心的开源软件框架.有一种说法是,Hadoop并不适用于真正实时数据可见性所需要的在线互动数据处理.事实是这样的吗?Hadoop的创造者兼Apache Hadoop项目创始人(现任Cloudera公司首席架构师)Doug Cutting说:"相信Hadoo