专家对话:大数据时代我们如何做处理与分析

大数据的浪潮有多迅猛?IDC在2006年估计全世界产生的数据量是0.18ZB(1ZB=100万PB),而今年这个数字已经提升了一个数量级,达到1.8ZB,差不多对应全世界每个人一块100多GB的硬盘。这种增长还在加速,预计2015年将达到近8ZB。目前IT系统的存储能力远远不足,就更不用说深入地挖掘和分析了。

在本文中,百度首席科学家威廉•张、Teradata首席客户官周俊凌、Yahoo!北京全球软件研发中心架构师韩轶平、SAP中国区企业信息管理咨询资深顾问杜韬等四位业内专家,将分享他们在应对海量数据挑战方面的见解和经验。

Teradata首席客户官周俊凌 百度首席科学家威廉•张 Yahoo!北京全球软件研发中心架构师韩轶平 SAP中国区企业信息管理咨询资深顾问杜韬

您所在企业的数据量现在达到了什么规模?

威廉•张:这个问题比较容易回答。百度不是一个产品,不仅有搜索引擎,还包括很多社区产品和媒体产品,所以这个数字大概是数百个PB,每天处理的数据大约有几十个PB。我是差不多四年半前加入百度的,所以我比较清楚地记得那时候的规模。与那时相比,现在的数据规模成长比较惊人,大概是那时的500~1000倍。

数据量大并不可怕,问题是要实时处理数据,因为任何的时延都会使服务失去一些优势,从而导致商业经济的下降。我们所做的策略都是针对实时性的,而且今天互联网用户的需求更加实时化,比如说微博、团购、秒杀。

周俊凌:从IDC的数据统计报告来看,数据增长是非常快的。相对于具体的数据量,Teradata更关注数据发展的趋势,并大量投入研究这种发展趋势,包括BI方面的变化和增长模式,这个模式对于我们非常有价值,通过研究这种模式,包括每分钟、每秒钟交易量有多大等这些数据的发掘和建模,数据科学家进行研究和探讨,把这些技术应用到生产系统里面,对企业发挥作用。

韩轶平:Yahoo!的主要云计算平台Hadoop现在有34个集群,总数超过3万台机器,最大的集群是4000台左右,总存储容量超过100PB。这个数量级可以说并不大,主要原因在于我们最近将很多精力放在处理用户隐私性和数据安全性上,因为按照欧盟的规定,Yahoo!不能存储超过一年的数据,所以我们的应对措施就是:不保存原始数据,但做很深入的数据挖掘,挖掘出真正蕴含的有价值的信息,把这些信息保存下来。

杜韬:SAP作为企业级应用提供商,更关注客户的数据量,而我们的客户有许多数据密集型企业,比如电信、金融、政府、零售等,数据量级从几个TB到数百TB。SAP在德国总部的数据中心有3万台服务器,数据量大概是15PB,主要为客户提供服务。我们正在帮助客户将内部应用迁移到我们的数据中心服务平台,这也意味着越来越多的客户数据会存在我们这儿。

面对大数据,您是怎样进行处理分析的?

杜韬:一方面在数据中心,我们使用了标准的虚拟化以及分布式存储;另一方面,我们推出了内存计算技术,用以应对数据应用和分析的挑战。传统的架构存在很大的瓶颈,磁盘读取是以毫秒,而内存读取则是纳秒。因此,我们将以前需要在应用层做的计算分析,比如预测分析或者大量运算,都放到内存里操作,从而实现性能提升,帮助用户充分利用数据。

韩轶平:对Yahoo!的情况,我想分三个部分来说明:数据采集、数据存储和数据处理。

在数据采集方面,我们建立了一个遍布Yahoo!几个数据中心、几十万台机器的实时搜集数据系统,该系统特点是一个主干道负责把数据经过过滤、清理以后,进行整合,并且在高可靠性的情况下,把它放到Hadoop平台。虽然相对来说精度很高、效果很好,但速度会慢一些。为了满足威廉•张所说实时性的需求,还有一个旁路系统,旁路系统在秒级能够把数据汇到主干道上,这是数据采集的部分。

在数据存储方面,基本上以HDFS为核心。在数据处理方面,主要技术是Hadoop、MapReduce以及我们自己开发的Pig。目前,我们有超过一半数据处理引擎是用Pig完成的。

周俊凌:Teradata一直在持续创新传统的企业级数据仓库产品线,在对接大数据时代的同时,继续传统的BI领域,包括提高数据处理的能力,从而更容易适应大数据管理。例如,通过数据访问频率高低确认数据温度,进行数据压缩,适应大数据的分析要求,使数据管理更容易。

我们有适应超高规模数据容量要求的硬件平台产品Teradata 1000,可以压缩35PB的数据。特别适用一些结构性数据和非结构性数据的分析,同时开发了很多能够进行数据统计和分析的软件包,包括将Hadoop等架构整合到Teradata数据仓库之中,可以基于目前的Teradata企业级数据仓库接口使用。

我们提供基于云的架构,能够使用Amazon EC2,为客户提供安全的存储产品,用来存储公司防火墙以外的、存储在云端的数据。我们刚刚收购了Aster Data公司,它有一些非常好的工具,适用于Hadoop、MapReduce的一些应用。

威廉•张:各互联网企业在云计算技术方面的应用都差不多,比如说百度也用了Hadoop,我提几个比较有特点的地方。

第一个是大搜索,即不仅是把网页抓过来,建立极其庞大的索引,而且为了使数据做到准实时或者更快速的更新,进行一些优化,比如根据地域分布和重要性分布,放在南方或者北方的机房里,主要还是根据数据应用制订的策略。另外就是采用数据流技术。

第二个是机器学习算法。在科技领域里,机器学习以前更多的是对一台服务器内存里的数据进行高复杂的计算,可能要跑很长时间。而在百度,机器学习应用于所有地方,比如判断用户需求,从用户行为反馈中得到我们应该推荐什么样的内容、匹配什么样的广告等,时效性非常高。可以称得上是增量型、大规模的机器学习方法。

此外,互联网应用要继续发展,最关键还是找到更有价值的数据,即不管数据来自何方,都要按照价值来决定如何处理它。

您怎样看待层出不穷的NoSQL技术?

杜韬:我一直认为,存在的就是合理的,NoSQL的产生和演进也是因为我们现有的应用需求所导致。当前在大并发量、海量数据的高效读写等方面,对关系型数据库提出了更高的要求,而NoSQL在这方面有独特的价值和优势。

当然,这并不是说NoSQL的出现就代表着关系型数据库的世界末日,因为对于一些应用,特别是企业级应用,对于事务的一致性以及读写的实时性等各方面有很高的要求,而关系型数据库在这些年的发展中积累了自己的优势。

因此,我很认同NoSQL是“Not Only SQL”的说法,相信在未来关系型数据库和NoSQL会并存甚至是相互融合。

韩轶平:NoSQL是一个很宽泛的概念。在Yahoo!,虽然NoSQL说得不多,但用的NoSQL工具非常多,我们的Key-Value数据库等各种各样的系统,都属于NoSQL框架。至于说NoSQL和SQL之间的关系,因为很多场合需要ACID,也就需要NoSQL的东西,而NoSQL之所以会出现,就像我经常说的“上帝是公平的”,当有一个需求出现时必须放弃另一个东西。我们的很多需求,比如大数据量、高分布性,当有了这些需求以后另一个需求可能成为新的瓶颈。事实上,对我们来说,互联网行业在很多应用中并不需要一致性。当把需求放宽时,自然能够满足另一些需求。

怎样挖掘数据中的价值?

威廉•张:我举一个直观的匹配广告的例子,它包括两类数据:一类是广告库,即广告内容信息和广告客户信息,这类信息很适合于传统数据库;另一类信息是用户看到广告之后的一切行为,经历了日积月累,可能会有几百万亿的用户行为。这两种数据可以相结合,经过机器学习算法就能产生价值。显然,第二种信息更重要,因为它能给用户提供想要的信息,比如搜索一个词,可以利用所有用户在他之前、在他之后的群体智能、群体行为,判定哪一类的信息最重要、最优质,哪一类信息可能是作弊信息,然后经过反馈机制,把最好的内容提供给用户,甚至推荐相关的一些搜索、查询信息。总而言之,对任何企业来说,数据是命根子;对云计算来说,数据处理就是云数据中心或者云计算存在的理由。

韩轶平:我们工作之余经常开玩笑说:从数据中能挖出的东西,不一定是钱,更重要的是用户体验,对互联网公司来说,数据就是一切。

Yahoo!不仅仅是搜索引擎,也有很多在美国各领域中排名第一的网站。我们做的很多工作,比如新闻网站信息,都是根据新闻的相关性和大家的兴趣推荐的,我们希望根据每一个用户自己的兴趣,甚至每一个用户此时此刻的兴趣,进行推荐。Yahoo!新闻的推荐系统,是把Yahoo!所有的数据搜集起来,用户在Yahoo!搜索上的所有行为都搜集到一起,做深度挖掘和个性化,对每一个用户都进行分析和推荐,没有这些数据我们不可能为客户提供体验,数据对我们来说就是一切。

杜韬:既然各位是从互联网的角度来看数据的价值,那么我就从企业的角度来分享一下。

智能电网现在欧洲已经做到了终端,也就是所谓的智能电表。在德国,为了鼓励利用太阳能,会在家庭安装太阳能,除了卖电给你,当你的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来2~3个月时间里,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供电企业购买一定数量的电。因为电有点像期货一样,如果提前买就会比较便宜,买现货就比较贵。通过这个预测后,可以降低采购成本。

另一个例子更偏我个人的兴趣。丹•布朗的《失落的秘符》一书讲到,如果把很多人的精神集中在一个点,能够移动物体。当然这个我们无从考证,但我们在网上搜索关键词、敏感词时,就可以判断出某件事情的公众态度。有一些新的业务模式,比如做一个网络广告投放评估公司,利用这样的技术评估网络广告的效果,我觉得也许是未来的业务价值产生点。

海量数据时代对企业和技术人员带来了哪些挑战?

韩轶平:以前我们都说自己是软件工程师,我们这个行业也经常被叫做软件行业,但我认为我们是真正的Information Technology行业。对大多数人来说,现在最重要的一点是转变观念,从Code/Program观念转变成Data观念,在做任何设计和开发时,要把Data放在第一位。

杜韬:海量数据一直在增长,但是我们应该想办法控制下来,未来的趋势应该放在怎样缩小海量数据上,而不是任凭它扩张。此外,海量数据时代对中国来说是一次引领世界IT业的机会。

周俊凌:在云计算时代,业务数据与云紧密结合在一起,提供业务开发的能力,我们从中学到了很多新的东西,有一些东西不再是自己去存储和开发,而是都放在云里面存储。技术产品推向市场的方式与以往相比,发生了很大变化。云的这样一种环境也给数据库提供商带来很多技术上的挑战,例如如何保证存储的安全性,包括身份识别的健全。这关系到数据的存储地方,例如现在发货的数据都是放在全球任何一个地方,不是放在某一个国家里面,这就带来关于数据主权的问题,可能有一些国家和政府不允许把数据放在国家某些地方,这都是一些挑战,需要从技术上解决安全等问题。

威廉•张:这里我浅谈一下两点感受。

首先,数据管理是DBA的一项重要本领,而高校的计算机专业教育里没有特别重视数据程序员,并没有数据管理员;其次,MapReduce并不是一个新概念,早在30~40年前当计算机能力还超小的时候,函数式编程语言就出现了,但至今大学里还没有开设MapReduce或者类似数据处理的课程,也基本上没有人听过这些东西。

未来将所有人的生活经验数据放在云里,这个大概可以实现,但如果解决不好数据安全性问题的话,那么距离最终的实现就会很远。我期待云计算变成云知识、云智能,而不仅仅是计算的工具。建立数据整合分享是云计算成功的必要和充分条件。

(责任编辑:admin)

时间: 2024-08-01 12:59:17

专家对话:大数据时代我们如何做处理与分析的相关文章

对话:大数据时代我们如何做处理与分析

大数据的浪潮有多迅猛?IDC在2006年估计全世界产生的数据量是0.18ZB(1ZB=100万PB),而今年这个数字已经提升了一个数量级,达到1.8ZB,差不多对应全世界每个人一块100多GB的硬盘.这种增长还在加速,预计2015年将达到近8ZB.目前IT系统的存储能力远远不足,就更不用说深入地挖掘和分析了. 在本文中,百度首席科学家威廉•张.Teradata首席客户官周俊凌.Yahoo!北京全球软件研发中心架构师韩轶平.SAP中国区企业信息管理咨询资深顾问杜韬等四位业内专家,将分享他们在应对海

大数据时代新闻生产的新变分析

大数据时代传统新闻的生产理念以及生产方式已然发生了深刻的变革,这是顺应时代发展的需要,也是新闻行业在前行过程中,不断自我修正.自我提升的必然结果. 一.数据新闻的特征分析 首先,"视图"结合的叙事方式."数据新闻"采用全新的报道方式,颠覆了以往单纯以"文字"为中心展开叙事的基本模式.面对复杂多变的信息内容,图文不仅增加了新闻的可视性,也便于利用"受众对于新闻要点的记忆和理解程度"来展开新闻创作. 其次,开启"议程设置

共享+结合 大数据时代几个关键问题剖析

大数据时代来临,每个公司都应该重视起数据部门.以前搜集数据没有足够的时间.能力.资源,因而无法获得更多的支撑.因为数据量不够.当我们有了更多的数据,我们看到的东西发生实质的变化,我们以前从来没有看到过这种情形.足够的数据,让我们更好的理解彼此,达到历史绝无仅有的水平. 大数据的核心在于共享 大数据之父舍恩伯格说"大数据的核心要义在于共享." 我们的各级政府.公共机构汇集了存量大.质量好.增长速度快.与社会公众关系密切的海量数据资源.除了部分分享自用和信息公开外,大部分没有充分发挥数据源

大数据时代 统计学依然是数据分析灵魂

在数据"爆炸"的时代,大数据常常被寄予厚望.到底,什么样的数据才算大数据,怎样才能用好大数据,传统统计学还有用武之地吗?清华大学统计学研究中心前不久成立,著名统计学家.哈佛大学终身教授刘军担任主任.日前,刘军做客人民日报.人民网<文化讲坛>,分享他的思考. 让大数据区别于数据的,是其海量积累.高增长率和多样性 什么是数据?数据(data)在拉丁文里是"已知"的意思,在英文中的一个解释是"一组事实的集合,从中可以分析出结论".笼统地说,

巅峰对话:畅想大数据时代的车联网与智能汽车

ZD至顶网CIO与应用频道 01月20日 北京消息:2016年1月20日,数据猿作为独家全程直播与专访媒体,受邀参加"全球大数据峰会 Global Big Data Conference 简称为 GBDC"本届大会由世界O2O组织.全球大数据联盟GBDC.全球移动游戏联盟GMGC.光合资本主办,中国互联网协会O2O工作组.中国汽车流通协会支持. GBDC全球大数据峰会在北京国家会议中心举办,本届大会规模逾3000人.大会从大数据改变政务管理方式.引领全球企业营销.智能交通综合服务.互联

大数据时代信息监控VS个人隐私 各国怎么做?

2月中旬,一名中国留美学生向学校请了半个月假回国过年,当她重返美国时,在洛杉矶机场被美国海关盘问.该留学生被要求上交手机供美国海关检查,官员在她和朋友的微信聊天中发现,她曾表示:"我不喜欢这个学校,不是真的想上学,只是临时挂一下身份."美国海关因此认定她隐瞒了来美国的真实目的,拒绝她入境. 美国海关及边境保卫局的公共事务专家称,所有到达美国的国际访客都要经过检查,这种检查包括手机.Ipad等电子设备. 在大数据时代中,人们对电子设备的使用率和依赖度极高,正因此,政府对公民电子设备的监督

大数据时代重构数字营销:从做广告到讲故事

这是一个大数据营销的年代. 最早提出这个概念的应该是麦肯锡公司,全球畅销书<社会消费网络营销>作者拉里·韦伯认为,所谓大数据包括企业信息化的用户交易数据,社会化媒体中用户的行为数据和关系数据以及无线互联网中的地理位置数据.大规模个性化营销将会是核心竞争力.而目前已经到了收集数据的黄金时期,如何整合这些数据成为未来的关键任务. 研究数据的最终目的还是研究人本身,只不过数据使得公司对人的行为的追踪和理解更加具象,数据能够多维度地关注人.洞察人. 而企业如果想让数据为我所用,就应该多维度地分析数据.

马云:大数据时代,最重要的是做最好的自己

做个二十名的人其实蛮好的.大数据时代,最重要的是让每个人做最好的自己. 6月29日上午,天津"世界智能大会"现场,马云作了万字演讲,以下是马云演讲整理: 我今天不是为不同而不同,我觉得进入数据时代,一个很重要的事,每个人对每个问题的看法.角度.深度和广度必须是不一样的,只有不一样,你才是你.其实大数据时代,最重要的是让每个人做最好的自己. 我最近一直在讲,我说我念高中,从小到达,没有考试当过第一名,一个很重要的原因,我知道我当不了第一名.第二,当第一名太累.第三,第一名只有一个,一个班

全球订房网为大数据时代下更加智能化的商旅市场做准备

时至今日,与全球订房网合作的单体酒店及连锁酒店等资源已达25万家,遍布全球180多个城市.企业客户35,000多家,覆盖化工.制药.航空和银行等领域.这个发源于德国科隆.成立于1972年的HRS全球订房公司用40年的时间为我们诠释了"专注所以专业"的严谨. "术业有专攻"用这句话来形容HRS全球订房网恰到好处,也正是40年来对订房这一细分领域的专注,让企业越做越大,越做越精.从两个人两部电话起家,开始酒店预订业务,到现在打造成为全球"在线商旅酒店解决方案专