大数据能做什么

Hadoop和大数据是这两年最火的词儿们之一,越来越多的公司对这个东西感兴趣,但是我接触到的大多数公司里的人,无论是技术人员还是老板。都不知道怎么能把这些东西用于改善自己公司的业务。在解答的过程中,提炼出几个要点,记录一下。

 

大数据和云是不是一回事?

这是最容易混淆的概念之一,我个人认为这是两回事,云服务,无论是云主机还是云存储还是云的其他应用,都是向用户提供一个接口,但这个接口的后端是虚拟机技术,或者分布式存储技术,或者其他分布式计算技术等等。简而言之,云的概念就是我向你提供服务,而你不需要关心这种服务的架构或者技术实现有多么复杂。打个比方,就好象是,云之前的时代我们要用电,就需要自己造一个电厂发电,造机组,造变电站,然后再去用它。而云服务就好象是别人搭好了一个电厂,电线直接进你家,你要用,只需要插上插头,不需要关心电是怎么被制造出来的。电力的生产和电力设备的维护都由国家电网承担。联系到网络方面,就是,我们以前要自己买服务器,自己装系统,自己上架,自己做负载均衡,自己维护软硬件环境。有了云之后,这些都通过云服务商的虚拟机技术完成了。数据安全和网络安全都由云服务商提供,你也不需要专门请人维护一堆设备。

而说到大数据,这个可以是基于云的,也可以是不基于云的。大数据的处理技术与提供云服务的技术是不尽相同的,但是又有所交集。可以说,云服务是基础设施,是市政工程,而大数据是城市里的高楼大厦。大数据可以基于云,也可以不基于云。

从技术角度上说,国内的大多数云服务商,主要提供的是虚拟机服务,这是一种分的概念,把一台物理服务器拆成多个虚拟的小服务器,尽可能多的使用其物理资源,避免浪费。而大数据是合的思想,是把很多台服务器合并成一个虚拟的巨型服务器,通过分配计算资源使数据可以快速的为生产力服务。用一句中国的老话形容大数据和Hadoop就是:三个臭皮匠顶个诸葛亮。用合并起来的计算资源超越小型机或者中型机的计算能力。这里面当然也有云的概念存在着,就是说,你不需要关心数据的存储和计算到底是怎么完成的,你只需要用就可以了。

 

大数据技术是不是一定需要数据量大才可以,数据量不大就不需要用?

通常是这样认为的,但是并不绝对,计算维度大,计算过程复杂也都可以认为是大数据。换句话说,就是,如果你所需要的数据,在你所需要的时间内无法正常计算出来,你可能就需要用到大数据的技术了。

一方面,你的数据需要的存储量超过数据库或者数据仓库的能力范围,你可能需要大数据技术;另一方面,你的计算量超过传统的数据处理手段的时效性能力范围之外,你也可能需要大数据技术。而典型的计算能力的挑战就是来自于数据挖掘和多维度分析。可能数据量不大,但是算法和过程很复杂,也可能会需要大数据的技术。比如对用户做推荐,基于用户群的分类做精准的广告投放。或者在传统行业计算气象预报,计算地质数据做石油探测,矿产探测。又或者用在金融行业,通过对历史数据建立数学模型,对证券和期货贷款等做风险预估。之所以阿里巴巴对于中国的经济和进出口的预测比商务部和统计局更精准,除了他们有一群数学和统计专家外,大数据是完全不可或缺的技术手段。

 

大数据技术是不是就是那个什么憨杜普?

显然不是,大数据领域存在很多厂商和应用,有开源的,有收费的。比如一些非Hadoop大数据处理的公司和软件,EMC的Greenplum,Splunk公司的splunk等等。这些都不是基于Hadoop的,但是也有共同的缺陷,就是很贵。所以,大多数公司采用开源软件来完成大数据的业务处理。而开源领域做得最好的,应该就是hadoop了。所以现在hadoop基本成了大数据处理的代名词了。基于Hadoop衍生了很多家商业公司,因为Apache的许可协议并不拒绝商业。像国内比较知名的Cloudera,MapR,他们的商业产品都是基于Hadoop及其周边的生态软件。

 

大数据应该怎么推进公司业务的发展?

这是个关乎想象力的事情,有了大容量和大计算,至于怎么用,这只能自己想。原来数据怎么做现在还怎么做,不过除了啤酒与尿布,口香糖与避孕套之外,还有一个比较生动的案例大约是这样的:美国有一个公司,在各产粮区每隔一英里插一个传感器,收集空气湿度和土壤含氮量等数据。收集上来以后通过大数据的处理手段和算法,预测出该地区的收成可能会是什么情况,然后把预测报告卖给美国的农业保险公司。

 

Hadoop有什么优缺点?

Hadoop的优点是数据的容量和计算能力以及数据的备份安全性有了很大程度的提升,1.0最大可以支持到大约4000台服务器的并行存储和运算,而2.0大约可以支持6000台服务器。不过2.0现在还不是很完善,所以生产环境还是建议用1.0。我认为4000台集群的容量和计算能力足以匹敌IBM的大型机,从去年12月15号的中国银行大型机宕机事件来看。大型机就算安全性再有保障,也毕竟是单点。真出了故障,谁也不敢拍板切换到备份大型机上。Hadoop 1.0已经有了很多方案去解决单点问题,2.0自己就支持单点故障切换。或许未来继续发展,将全面超越大型机。事实上,IBM已经开始出自己的Hadoop发行版了。

至于缺点,就是Hadoop1.0还是存在单点问题,但是可以通过其他技术手段弥补做到热切换,只是要求维护人员的技术水平较高。另外一个缺点是计算的时间会比较长,还无法做到实时查询和快速决策响应。但是有很多其他的方案在弥补Hadoop的这个问题,像Apache出的跟Google Dremel竞争的Drill,Cloudera推出的Impala,和其他一些产品。而实时计算则有Twitter开源的Storm集群,设计理念跟Hadoop是一样的,但是可以对实时数据流进行计算,并即刻生成计算结果。做到随查随出。

 

在各个开源社区的支持下,在全世界程序员的共同努力下,大数据的处理能力也在高速的发展,程序员们正在用自己的智慧改造这个世界。

时间: 2024-12-21 00:11:43

大数据能做什么的相关文章

大数据营销做什么?怎么做?做得怎么样?

1.谁在做大数据营销? 大家都说自己在做大数据营销. 基于: 业务:和市场营销相关,因此政府机关单位数据不考虑.体量:拥有足够多有价值的数据.这一条很多互联网企业和传统大企业都能满足.技术:有技术能力处理大数据. 上面3个因素,国内能做大数据市场营销的还真只有BAT三家.国外的不熟悉,这里不谈. 众所周知,三家的数据特点各不相同.腾讯优势在社交数据:阿里巴巴优势在商品和交易数据:百度优势在全网信息.消费者行为和主动需求数据. 当然例如平安.宝洁.沃尔玛这样的大企业,其自身肯定积累了大量的数据,基

舍恩伯格论大数据时代:大数据能做什么

文章讲的是舍恩伯格论大数据时代:大数据能做什么,7月28日,<大数据时代:生活.工作与思维的大变革>作者.牛津大学教授维克托·迈尔-舍恩伯格,参加了在青岛举行的2013年海尔商业模式创新全球论坛.论坛上,舍恩伯格纵论数据的价值.如何开发运用数据的价值,以及未来大数据时代将带来的经济模式变革. 要学会善用更多的数据 在过去的十多年中,互联网的广泛应用,极大降低了交易成本.但在舍恩伯格看来,另外一场革命即将到来,就是大数据时代带来的革命. 他举例说,一位华盛顿大学计算机系教授创办的大数据企业,到所

LinkedIn张溪梦的分析哲学:大数据要做小做快

在很多人的印象里,职业社交网站LinkedIn是一家很另类而神秘的社交网站,但它的价值逐渐让世人侧目.在日前举办的2013 Teradata大数据峰会上, LinkedIn商业分析部总监张溪梦(Simon Zhang)在接受IT专家网记者的专访,介绍了LinkedIn如何通过对数据分析技术的利用创造企业的价值. LinkedIn的目标,是联结世界上所有的专业人士,让他们能够更有效率,更成功.目前,LinkedIn在世界范围内的用户已增长到2亿多,86%的财富100强企业正在使用LinkedIn的

百度玩转大数据 要做“章鱼帝”

今年世界杯,巴西队首场对阵克罗地亚的胜率是72%,平局的概率则有20%! 厄瓜多尔有52%的几率望成为黑马,洪都拉斯异军突起的可能性只有7.8%,当然,这个黑马榜15个"种子选手"中,根本没有中国. 这是谁说的? 当然,不会再是那个有预知功能的章鱼保罗了,那个神奇的"大人物"已经在四年前预测完世界杯冠军后撒手"鱼"寰--这是百度大数据计算的结果,公布在百度"trend"中. 世界杯就像一场狂欢盛宴,任何可以被抓住成为焦点的可能

恢复生态环境,大数据能做什么?

借助卫星,观鸟者,传感器和护林员,生态十字军正在利用海量数据集成强大的工具来帮助我们赖以生存的地球. 环境治理不是一件容易的事情:原因往往是复杂的,而解决方案则更复杂.这可能是为什么科学家们转向一个新的战略,通过数据分析来改善环境.通过处理分析有关生态系统的影响因素的数据,研究人员已经开始寻求崭新的方式来保护我们的环境. 森林退化的碎片整理 马里兰大学和谷歌合作创建一个高分辨率的,交互式映射工具,测量记录由于火灾和城市发展等因素所引起的森林退化--在细节和精度上都达到前所未有的水平.该映射工具采

每天1000+架次航班起降,算法+大数据能做什么

过去10年,中国民航业实现了大跨越式的发展.以飞机为例,2005年我国的民航运输飞机仅863架,到2015年底猛增至2650架.作为国内三大航空枢纽机场之一的广州白云国际机场,改革开放后发展迅速,旅客吞吐量和起降架次曾连续8年全国第一,每天都有超过1000架次航班起降. 在大量航班管理之外,机场还需要调配上千量特种车辆.近万名员工24小时不间断地提供服务,复杂程度可想而知.目前国内主要机场普遍存在以下两个问题急需解决:旅客流量精准预测是一切保障工作开展的前提,却对季节.天气.地理.人文.节假日等

神医“大数据” 甘做幕后英雄

CNET科技资讯网 7月11日 北京消息(文/陶婧婕)当代医疗从业者无疑是幸福的,为什么这么说呢?他们拥有了解剖学.显微镜.伽马刀.X射线等神器后,大数据的采集.分析又让医疗工作者成为了真正的"神医".如果神农出生在这个时代就不用体会尝百草的艰辛,而关羽也不用承受刮骨疗毒的痛苦了. 当然,这并不意味着所有医疗从业者都要去学习大数据技术,它更像是幕后英雄,用好它就能让医疗工作者获得福尔摩斯的洞察力:它能发现不同患者病情中的相似处,并联系当地的环境和生活习俗变化因素,就第一时间判断出是否出

大数据如何做医药营销?

随着互联网技术的发展.全媒体环境的全面形成,"大数据"已成为新的时代主题词.海量级的数据催生了海量的搜集.存储.管理.分析.挖掘与运用的全新技术体系,目前这些技术服务已应用于各行各业. 大数据科学应用 医药行业是一个特殊的行业,有着类型复杂.数量庞大的客户群体,不断创新的医药产品与服务,以及由医药行业本身特征决定的复杂运营模式.在药品营销中,药品销售过程中会积累大量的数据,包括日常销售管理数据.内部销售和财务数据.医生客户数据.病人病历数据.经济学数据等.应用好这些数据,可以实现药品的

SAP:大数据时代做“简法”

10月22日,知名企业管理软件厂商SAP的大中华区对外披露,其截至今年9月底的三季度软件及软件相关服务收入取得双位数增长,尤其云计算业务录得三位数增长. 对照SAP全球市场的数字,大中华区的增长堪称"强劲".而对于SAP大中华区总裁纪秉盟(Mark Gibbs)来说,这也是大中华区"独立"后的一份不错成绩单.自去年年底,SAP大中华区正式成为独立业务区域,作为SAP全球五大业务区域之一,直接向SAP全球董事会汇报. "去年一年实现了持续稳定的高绩效表现.&