从Hadoop洞悉大数据市场:路漫漫其修远兮

用大数据分析大数据市场

现今科技界红到发紫的大数据革命的代表性技术就是Hadoop(注:一个分布式系统基础架构)。Hadoop是一个由一系列不同的技术组成的生态系统。做Hadoop相关产品的公司有很多,其中也有很多不一样的选择和变种,比如Cloudera,Hortonworks,亚马逊EMR,Storm和Spark都是其中的一部分。而Hadoop作为一个整体来说仍然是采用量最多,讨论最火爆的大数据技术。

然而通过我们的数据分析发现在世界上前50万个公司中,只有很少的一部分真正的使用了Hadoop技术。有人会说我们仍然处在这个技术被大众所接受最初始的阶段。我们假设用Hadoop的实用情况来代表整个大数据的发展现状,通过数据分析我们发现了一些很有意思的市场现状。

当刚看到这些原始数据的时候,我们会发现大数据市场还有非常大的潜在空间。但是现在真正的使用者非常少,而这方面的公司又多如牛毛,意味着大数据科技公司中会被并购。简单地讲,大数据市场会慢慢的变得更加成熟。

现况一览

我们分析了几十亿条网上公布的信息,包括新闻稿、论坛帖子、招聘启事、微博和专利等等。我们用这些大量的文档进行机器学习,从而得到一些关于大公司都技术采用情况的非常精确的信息。

我们想通过分析了解什么样的趋势呢?举个例子,通过统计公司员工的技能就可以了解他们所在的公司这正在使用什么样的技术;有哪些公司在找会Spark的人;哪些公司在招数据科学家,招多少个。如果把关注点放在Hadoop上我们可以找到一个公司或者组织的人有没有在讨论Hadoop相关问题,有没有需要Hadoop的职位正在招聘,都有谁去了当地关于Hadoop的兴趣小组,还有网上谁在问关于Hadoop的技术问题。我们甚至用了关于Hadoop的每一条微博,博客和展示稿。

总的来说,我们发现只有2680个公司在某种程度上使用Hadoop,在这些公司里面,1636个的技术采用成熟度是非常低的,这些人只是刚刚开始尝试新技术,参加兴趣小组和技术会议来学习大数据或者尝试做一些入门探索性的项目。另外552个在更高的一个级别,他们已经开始在内部比较小型的项目中用Hadoop(部门的项目或者公司本身就是一个初创公司)。只有492个是在进阶的技术状态,这些公司有一个比较大型的项目投入产品并且有员工对Hadoop有一定的经验。

大公司更爱大数据

 

我们惊讶的发现,大型公司(5000人以上)开始使用大数据技术的速度要远远高于小型公司。一般人很可能会猜小型或者历史比较短的公司会更愿意采用新技术。但是对于大数据,现实情况正好相反。我们发现大型公司中有300个对于Hadoop非常重视已经进行了技术投资,而相对比之下只有300个5000人以下的公司是Hadoop用户。考虑到中小公司的总数目是大公司的10倍,这也就是说Hadoop在大公司市场的占有率是中小型公司市场的10倍。

大多数用Hadoop的公司自己就是高科技数据导向的公司。但是我们不知道为什么小公司迟迟没有迎头赶上。这是因为他们买不起大数据软件支持吗?还是因为他们请不起高薪的数据科学家和工程师?还是他们根本就没有太多的数据?

石油和医药行业落后

金融行业领先

油气公司和医药公司一般来说都有非常多的数据集,但是我们的分析表明他们并没有很多在使用Hadoop。然而金融行业虽然传统上并不是可以快速采用新技术的行业,却很快地使用了大数据技术。

这也许是因为金融行业受到了一些早期使用者(比如美国运通公司)的影响。或者是因为他们直接从IBM大型计算机飞跃到Hadoop,中间直接跳过了好几代的技术更迭。甚至现在已经出现了专门提供这种技术升级服务的创业公司(比如Paxata和Syncsort)。

实时分析也不能阻挡

Hadoop的脚步

令人不解的是,一些需要实时分析的行业更快的采用了Hadoop技术。这些行业包括零售行业、IT安全、电信和保险。这个非常让人困惑,因为Hadoop最开始的基础MapReduce(映射-归纳)模型采用的是批量处理,这种方法在实时数据分析和处理中非常低效。为了解决这个问题,市场中已经出现了一些实时处理Hadoop的公司(比如Datatorrent、VoltDB和Splice Machine)。

未来展望

即使是那些准备好了进入Hadoop的公司也要面临人才的缺失的问题。在撰写文章的这天光美国就有1万6千个需要Hadoop经验的岗位在招人。如果Hadoop市场走向成熟,那业界需要找到一个可以利用那些没有Hadoop技术经验人才的方法。那些了解SQL的人才数目要比懂Hadoop的多100倍。类似Splice Machne, Presto,IBM大数据,甲骨文大数据SQL之类(这些公司都提供用SQL来查询大数据的方法)的解决方案将会因为相关人才的数量而更加有吸引力。

即便人才问题可以得到解决,技术本身仍然存在着实用和维护成本非常昂贵的问题。虽然使用了免费开源的Hadoop系统,你仍然需要找到非常稀少开价很高的系统管理员。另外虽然在备份,恢复和高使用性方面的解决方案越来越多,但是管理Hadoop系统仍然比SQL数据库要复杂的多得多。

当今的Hadoop市场可以说是比较小的,并容不下这么多的创业公司在里面竞争。我们的分析表明真正在为大数据买单的公司集中在少量的大型公司中,所以最后胜出的应该会是那些在市场中已经站稳脚跟的技术。我们从最近Hortonworks在股市中的表现也可以看到这一点(注:目前股价$11,市值自上市以来已经蒸发了一半还多)。

这会直接导致一些Hadoop公司被收购或者合并。最后并购的公司如果不仅可以支持最基本的MapReduce,还可以采用公有云定价模式,事务,纯内存处理,实时分析和SQL等等,那么客户可以不再为了有很多不同的一次性系统而烦恼。最终就像是以前的关系型数据库公司那样被应用型公司所取代(比如甲骨文),这些公司直接提供一些大数据驱动的解决方案,可以直接应用在物联网、客户关系管理、供应链甚至一些行业特定的应用上,比如物流管理甚至金融欺诈检测。

前路漫漫

如你所见,大数据市场还有非常多增长和改变的空间。我们的分析表明下面的几个方面可以帮助这些增长成为现实。首先Hadoop可以进军更多的垂直市场和中型公司,其次Hadoop方面人才的数量需要增长,然后通过改善分析系统可以让更多已经了解SQL的人更好地使用Hadoop工具。最后是并购之后的公司如果可以转型成为应用为主体产品的公司应该会是笑到最后的赢家。

译者后注:本文清晰地分析表明大数据技术仍然处于市场占有的初级阶段,到像和SQL一样进入主流市场还有很多挑战,因为对于企业级软件初始客户的需求和主流用户的需求是完全不同的。这在商业经典《跨越鸿沟》一书中有深度讲解,有兴趣的读者可以一读。

原作者:Aman Naimat

译者:薛菲


时间: 2024-10-18 12:47:57

从Hadoop洞悉大数据市场:路漫漫其修远兮的相关文章

路漫漫其修远兮 环保大数据建设蓝图初显

"大数据"已经越来越成为生态文明建设持续推进的破题关键所在.环保大数据从哪里着手?如何形成环保大数据?环保大数据建设需要打破几道关卡?关于这些问题,业内专家进行了详尽的解读. 路漫漫其修远兮 环保大数据建设蓝图初显 <中共中央关于制定国民经济和社会发展第十三个五年规划的建议>明确提出拓展网络经济空间.实施"互联网+"行动计划,发展物联网技术和应用,发展分享经济,促进互联网和经济社会融合发展.实施国家大数据战略,推进数据资源开放共享.并对涉及民生的农业.教

路漫漫其修远兮,吾将上下而求索-奥古多媒体站长岳永寿访谈

媒体|站长 奥古多媒体(www.aougu.net)是国内多媒体爱好者自发成立的多媒体技术专业站点.自2001年5月11日创办至今,奥古多媒体汇聚了多媒体业界的众多精英,致力于深入研究和推广最新的多媒体技术,其中对专业多媒体创作软件Director的技术支持更是独树一帜. 岳永寿,福建省闽江大学电子信息科学与技术专业毕业,岳永寿本人就是多媒体开发的专家,曾开发过富友游戏.VOA英语听力软件.数学小龙系列等项目的开发,他创建的奥古多媒体更是国内首屈一指Director多媒体技术网站,最近,我们对奥

网站推广-路漫漫而修远兮

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 网站推广.路漫漫而修远兮一(一个农民工站长的心声) <前言:也许,你无法想象;其实我只不过是一个出生于七十年代的农村青年而已,小时候,由于家里穷,也没有读过多少书;初中都没有读完,准确地说,只读了一学期.更别说接触电脑方面的知识了.那时候,在我们农村来说,别说接触电脑,就是现在在我们农村学校里电脑都未曾普及教学呢;而我现在也不过就是一个

Hadoop与大数据市场及应用

在大数据应用的浪潮中,Hadoop带来了廉价的处理大数据(大数据的数据容量通常是10-100GB或更多,同时数据种类多种多样,包括结构化.非结构化等)的能力.越来越多的行业应用客户希望使用Hadoop作为解决其数据处理过程中数据量大.数据类型复杂多样,数据产生的速度快及数据价值提炼的问题,以实现高效,低TCO的解决方案. 目前典型的应用领域如智慧城市.智能交通.智慧医疗.移动互联网.多媒体处理.零售.广告.工业等结构与非结构化数据库等. 随着城市交通的不断建设,每时每刻都会产生大量的图像和视频数

癌症基因的探索 : 路漫漫其修远

  癌症是细胞基因出了问题而得的疾病.当某些基因发生变异,会导致细胞行为表现怪异.细胞分裂迅速,并躲过人体免疫系统的杀伤,从母体获取生长所需的营养,并最终发展成肿瘤.   科学家们在20世纪70年代开始研究并鉴定这些癌症基因,已知的癌症基因数量逐年增长.通过研究它们,科学家会更清楚不同类型的癌症如何发展,甚至在某些情况下,还能够开发针对这些基因的靶向药物. 例如,去年五月美国食品和药物管理局批准的名为Tarceva的治疗肺癌的一线药物,就是针对其中一个叫做EGFR的变异基因.   美国国立卫生研

路漫漫其修远:移动支付发展之路障碍重重

中介交易 SEO诊断 淘宝客 云主机 技术大厅 PayPal用户能用手机号码在家得宝连锁店中进行支付 (腾讯科技配图) 腾讯科技讯(童云)北京时间9月29日消息,国外媒体近日刊载文章称,移动支付行业目前仍旧面临着许多"拦路虎".文章指出,对于个人消费者和商家来说,由一系列新的支付方式所组成的"大杂烩"正在形成,而他们当中的许多人都不熟悉这些相互竞争的技术.许多消费者对移动支付都不熟悉,这意味着这项技术需要很长的学习曲线才能站稳脚跟. 以下是这篇文章的全文: 莱斯利·

网站推广、路漫漫而修远兮(六)

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 网站终于作好了,也上传到自己空间里了,原以为终于可以松一口气了;可是随后才发觉,以后的路还长着呢---! 网站是做好了,可是却没有人知道它.访问它;做网站的目的是为了什么?不就是希望别人知道它.并访问它吗?不然做来何用?总不会是自己做来自己欣赏吧?就算不是为了其他什么商业目的,就算是因为自己业余爱好,但是也希望别人知道并且能够访问到它呢?你说

路漫漫其修远兮,吾将上下而求索---我的五年工作总结

三月的重庆到处弥漫着浓浓的春味,在这个春暖花开的季节里,人们在闲暇的时间都忙着踏青和春游."一年之计在于春",春天是赏花旅游的季节,春天更是为未来作打算.定计划的时候.在2017年的春天,我做出了人生中的一个重要决定:离开工作近五年的ZTE(中兴通讯),去开启新的人生征程.最近我在罗辑思维的得到APP上订阅了薛兆丰老师的"北大经济学课"专栏,我认为他说的一句话特别有道理,这句话的大意是:"我们如何选择是否离开当前的公司呢?可以拿公司里面比自己资深的人作为参

网站盈利之路—漫漫其修远兮

今天无意在百度搜索"网站盈利"想看看别人都咱赚钱的,结果搜到一个小站点,仔细一瞧,藐似上当,没啥盈利的内容啊,很不情愿的浏览一下,才猛然发现其实盈利只是一个结果,做站才是过程,我们需要做的是过程而不是做结果.苦心经营多年,一直不解为何自己才高八斗智能过人(汗死~~!),却连一个小站也管不好,没有盈利,干巴巴等啊等,然后失望,最后绝望.自从网站广告深入人心,无论垃圾站非垃圾站,矛头始终直指AD,严重忽略了网站的本质.看看你本地的报刊杂志,看看新闻媒介,它们如何做大的,他们的盈利步骤到底如