2016年北京hadoop in china见闻

一、概况

笔者有幸参加了今年在北京主办的hadoop in china，在与会中有不少的感受与大家分享。今年的hadoop in china整体来看，参加会议的人比较多，在第一天上午场的topic里，大厅人都满了，内容也比较多。今年主题内容从大局观、产品、技术都有很多的内容。貌似今年的议题是假设参加会议的同学有一定的基础，没有过多的去介绍基础的内容，比如，没有人说hadoop是啥了，单刀直入，趋势、产品、新技术。大数据改变人类的未来，正在渗透到每个行业中，甚至是人的基因分析。

二、云化

今年开始，有一个明显的趋势是，很多公司都开始在云化自己的产品，创业公司基本是使用公共云，传统的公司基本是私有云加上混合云的方案。但总体来讲，大家都一致认为最终的形态还是公用云的，不管是业务还是大数据。

三、实时大数据

在第二天的下午场次里，最热是实时大数据处理，技术比较多，到了17点的时候还座无虚席。大家关注最新的实时化的技术点，如jstorm、druid、streamSql、kudu都是目前比较火的，当然包括flink、spark(因有spark submit所以这个会就少了)等更好了。其实说实在的，根据笔者个人的观察，目前hadoop+spark+hbase已经满足90%+的需求，对与一些新的技术的探求目前还是仅仅在大公司，为了满足一些特别的业务场景。对于小公司也许这些技术也可以满足你的需求，但是是否有必要，还需要想想。

四、大数据创业的黄金时期

大数据应该会慢慢深入到了各行各业，新型的创业公司，业务创新公司正在层出不穷的在涌现。几年前，想要听关于大数据的产品是都没有，只有技术的。如今，来讲的基本都会带产品来，基本都是宣传下产品，再讲下怎么做的，最后有的还不忘招聘。BAT来的人比较少了，一般的创业公司其实还没有到BAT的规模基本也不会出现BAT的问题。创业公司基本还是比较关注自己的业务模式的问题。大数据的重心会从技术本身转移到专业的产品、业务上来。毕竟，大数据技术Hadoop已经为业务、产品铺好了路。

五、笔者比较关注的

笔者第二天的下午场次要主持《云计算与大数据》，这个场次主要是讲述怎么在云端搭建hadoop，包括了各家的产品，比如：星环的、微软的、VMWare的，当然我也宣传了下自家的产品阿里云的。另外就是华大基因、思迈特分别介绍了下各自的业务。云化，也会遇到很多问题，不过可惜的是，各家基本都在讲自家的产品多么的好，也没有太多讲有啥问题，怎么去解决问题，毕竟各家还存在一定的竞争。比较有意思的是第一次权威的听了关于基因的测讯的历史现状及未来。

《HDFS在云环境下架构演变》，笔者听了下，主要讲了怎么把HDFS做成没有状态的，把数据存放到阿里云的OSS或者AWS的S3上。当在带宽充足或者不是瓶颈的情况下，这样可以让计算动态伸缩，且原有的code又不需要动。

星环的同学讲的比较多，各个层面都讲了下，星环在原有的hadoop的基础上开发出基于自己的一套引擎着实不容易，在私有云场景下，跟阿里云、华为在激烈的竞争。

ebay到了上万的规模，跟他们聊了下，只能说当年的云梯1做的还是真不错的。也跟cloudera、Hortonworks、微软的同学聊了下，大家的想法还是比较类似的。

行业应用需要具体到具体的行业中，基本是用streaming加上机器学习，解决特定的问题，如百分点讲的PHM硬件损坏检测，预测；特定行业的分析，如华大的基因，金融行业大数据等。

六、一些思考

我生活在互联网时代，在人工智能、智能驾驶、智能家居、虚拟现实、量子计算快要来临的时代，有人说这是第四次工业革命-智慧革命，还有人预言2050年人有机会获取永生，我们翘首以待，当然，我们也可以投入其中，迎接未来。
但是，也有另一个声音，核武器是人类第一次有把人类灭亡的能力，那么未来，人类也可能制造出人类的主人，类似《黑客帝国》中的人类似，一生都生活在虚拟世界中。人类一次次发展，到底是否更加幸福？很多人都认为现代人更加不幸福。这些深奥关于人类的命运，人生意义的话题也许就是如《2001太空漫游》中讲述，人类本身就是高等智慧生命的试验场，又或者根本没有意义，一切的意义也就是人类自己认为的罢了。

七、接下来呢?

云是载体，计算才能发挥价值，计算的核心就是机器学习，只有具体的业务产品才会普惠所有人。
听起来就是废话，也是。具体怎么做，目前大家都类似，新的谁也不知道。好处就是不知道明天会咋样，坏处也是不知道明天会咋样。又是废话，额，好吧。

非常感谢组委员组织此次会议，具体的相关信息及PPT，请关注：http://chinahadoop.com/

版权声明

笔者微博：阿里封神欢迎转载，但请保留原文地址

时间： 2024-10-26 12:45:42