2017年,大数据工程师应该如何充实自己的专业工具箱

随着互联网应用的普及、智能硬件的发展,数据产生的速度呈现了持续爆炸式的增长,数据产生的价值也已不仅取决于空间维度,同时开始在时间维度进行延展,因此提高计算的时效性,更快的从数据中挖掘出信息和知识就意味着能够获取更大的价值。这在阿里双十一大促这样的场景中表现的尤为明显,用户行为和商品变化信息带来的价值都是短暂有效的,因此大数据后台系统需要在线收集用户行为和商品变化等信息,实时调整搜索和推荐策略,为用户和商家提供更精准的服务。

在实时计算领域,Apache Storm、Samza、Spark Streaming、Kafka Stream、Flink 等开源流式计算引擎层出不穷,呈现百家争鸣之势,Google 也顺势推出了开源的 Beam 计算框架标准。

在即将于 4 月 16~18 日举行的 QCon 北京 2017 上,我们专门邀请了两位资深的大数据专家和我们一起策划了两个大数据方面的专题,希望帮助大数据工程师充实他们的专业工具箱,提升他们的架构思维和编程技能。

王峰(莫问),阿里巴巴搜索事业部资深技术专家,数据基础设施团队负责人。2006 年毕业后即加入阿里巴巴集团,长期从事搜索和大数据基础技术研发工作,目前在阿里搜索事业部担任资深技术专家,负责数据基础设施团队。他将作为出品人带来《大数据实时计算与流处理》专题。

Apache Beam 是一款新的 Apache 项目,由 Google 捐献给开源社区,凝聚着 Google 研发大数据基础设施的多年经验。Beam 来源于 Batch(批处理)和 strEAM (流处理)这两个词,意在提供一个统一的编程模型,同时支持批处理和流处理。本次演讲中,Amit 将介绍 Beam 处理大规模乱序流数据的基础,以及 Beam 提供的强大工具。PayPal 架构师,Apache Beam 贡献者,PMC 成员 Amit Sela 将带领我们深入理解 Apache Beam。

阿里巴巴搜索技术团队从去年开始改进 Apache Flink,并创建了阿里的 Flink 分支,线上服务了阿里集团内部搜索、推荐、广告和蚂蚁等核心实时业务,内部称之为 Blink 计算引擎。目前阿里巴巴也已经在和 Flink 母公司 DataArtiscans 一起合作,将 Blink 的改进全部贡献回 Flink 社区,共同推进 Flink 社区的发展,阿里巴巴高级技术专家马国维将全面介绍阿里新一代实时计算引擎 Blink 对 Flink 的各项改进,并向大家分享 Blink 计算引擎在阿里内部的典型应用场景。

滴滴出行近年来飞速发展,系统日均消息量超过万亿规模,消息日均存储处理量达到 PB 级别。由于交通数据的特殊性,滴滴内部需要实时计算的场景日益丰富,面临着低延迟、高吞吐、高稳定性等一系列的挑战。来自滴滴出行的刘建辉将从数据实时采集、实时传输、实时计算、实时消费等整个流程来介绍实时平台在滴滴的实践情况,同时针对日志检索、监控、etl、olap 等具体场景展开介绍。会重点介绍 Spark Streaming 实践和海量日志的实时检索实践。

本次 QCon,我们也和硅谷的湾区同学技术沙龙 (TechM)(tech-meetup.com)合作,推出了硅谷大数据技术专题。出品人是 LinkedIn 高级工程师、湾区同学技术沙龙 Board Member 夏磊博士。

在该专题中,你将听到 Apache Kafka 在事实处理方面的最新进展,Airbnb 的通用数据产品平台,分布式海量二进制文件存储系统 Ambry 以及深度学习在电子商务中的应用等精彩内容。

  更多精彩内容,可以访问 QCon 官网:

http://2017.qconbeijing.com/

识别下图二维码或戳 「 阅读原文 」,了解更多详情!  

 

  

本文转自d1net(转载)

时间: 2024-08-30 21:58:14

2017年,大数据工程师应该如何充实自己的专业工具箱的相关文章

2017年大数据发展的十大趋势以及在各行业的应用潜力

2016年,大数据已从前两年的预期膨胀阶段.炒作阶段转入理性发展阶段.落地应用阶段.2017年,大数据依然处于理性发展期,依然存在诸多挑战,但前景依然非常乐观.2017年大数据的发展呈现十大趋势: 趋势1:越来越多的企业实现数据孤岛的打通,驱动大数据发挥更强的威力 企业启动大数据最重要的挑战是数据的碎片化.在很多企业中尤其是大型的企业,数据常常散落在不同部门,而且这些数据存在不同的数据仓库中,不同部门的数据技术也有可能不通,导致企业内部数据无法打通.若不打通,大数据的价值则难以挖掘.大数据需要不

2017中国大数据应用创新峰会在青岛成功召开

2017年4月26日,以"以应用促发展.依创新而智变"为主题的"2017中国大数据应用创新峰会暨数据中国城市行活动"在青岛海尔洲际酒店顺利举办,中国大数据产业生态联盟2017年理事会员工作会同期在青岛召开,圆满成功.当下,互联网正在进入"下一幕"智能时代,大数据技术将使全社会迎来变革性的发展.会议展现了中国大数据与人工智能等新技术冰火交融.相得益彰.蓬勃发展的景象,如一缕朝阳,在如冰的海量数据中激荡出绚烂的花火. 大会由中国电子信息产业发展研究院

大数据工程师练成记之首重:知识体系一览!

我们想要告诉大家的是成为大数据工程师需要掌握的知识体系,而作为初学者,你可以先从简单的入手,慢慢在学更深的知识,拿出高考的恒心和坚持来,肯定能行. 值得一提的是,目前大数据工程师的月薪都是20K起,月收入两万的薪资是不是很诱人?而且大数据工程师是非常容易找到工作的,所以--Why not 不扯犊子了,由于篇幅所限,这一部分内容主要包括数据可视化.机器学习和算法三个分支. 数据可视化 R R不仅是编程语言,同时也R具有强大的统计计算功能和便捷的数据可视化系统.在此,推荐大家看一本书,这本书叫做<R

2017年大数据领域,这7大技术将退役!

文章讲的是2017年大数据领域,这7大技术将退役,我们已经在大数据领域进行了很长时间的探险了,虽然大数据已经不再让人眼前一亮和感到新鲜,但技术的不断更新足以让你时刻关注这个领域.同时,这也是很多企业技术更新最快的领域,但还是有一些技术会长期占据靠前的位置,直到有更好的替代品出现为止. 许多技术在未来面临着很大变化,或者重大升级.以下的这些技术,你或许可以考虑替换掉了: 1.MapReduce. MapReduce速度很慢,它很少成为解决问题的最佳方式.还有其他算法可供选择 - 最常见的是DAG,

2017年大数据向左走、向右走?且看阿里数据经济研究中心六位大咖怎么看

2016年的市场热点从大数据已经过渡到了人工智能,但大数据.计算能力和算法这三大要素结合在一起才真正造就了人工智能在2016年的崛起.那么,业内专家如何看过去的2016和2017年大数据的发展呢?让我们看下6位ADEC(阿里数据经济研究中心)的特邀研究员的观点吧. 数据隐私界定和保护是焦点 田杰棠 国务院发展研究中心技术经济部副部长 2016年是大数据从探索性应用走向纵深发展的一年,两批共八个国家级大数据综合试验区启动建设,越来越多的行业试水数据分析和应用,一些高校已经开设大数据专业,大数据和人

如何成为一名大数据工程师?

导 读 大数据是眼下非常时髦的技术名词,与此同时自然也催生出了一些与大数据处理相关的职业,通过对数据的挖掘分析来影响企业的商业决策. 这群人在国外被叫做数据科学家(Data Scientist),这个头衔最早由D.J.Pati和Jeff Hammerbacher于2008年提出,他们后来分别成为了领英(LinkedIn)和Facebook数据科学团队的负责人.而数据科学家这个职位目前也已经在美国传统的电信.零售.金融.制造.物流.医疗.教育等行业里开始创造价值. 不过在国内,大数据的应用才刚刚萌

如何成为一名优秀的大数据工程师

大数据是眼下非常时髦的技术名词,与此同时自然也催生出了一些与大数据处理相关的职业,通过对数据的挖掘分析来影响企业的商业决策. 这群人在国外被叫做数据科学家(Data Scientist),这个头衔最早由D.J.Pati和Jeff Hammerbacher于2008年提出,他们后来分别成为了领英(LinkedIn)和Facebook数据科学团队的负责人.而数据科学家这个职位目前也已经在美国传统的电信.零售.金融.制造.物流.医疗.教育等行业里开始创造价值. 不过在国内,大数据的应用才刚刚萌芽,人才

谁能做大数据工程师?

大数据是眼下非常时髦的技术名词,与此同时自然也催生出了一些与大数据处理相关的职业,通过对数据的挖掘分析来影响企业的商业决策.这群人在国外被叫做数据科学家(Data Scientist),这个头衔最早由D.J.Pati和Jeff Hammerbacher于2008年提出,他们后来分别成为了领英(LinkedIn)和Facebook数据科学团队的负责人.而数据科学家这个职位目前也已经在美国传统的电信.零售.金融.制造.物流.医疗.教育等行业里开始创造价值. 不过在国内,大数据的应用才刚刚萌芽,人才市

你们是不是真的很缺大数据工程师?

00 缘起 之所以有这个话题,是因为周末加班中午吃饭与一个同行朋友聊起了这个话题,之后再细细地结合一些其他接触的东西,确实是有些感触的. 并且对于行业的一些现状,也的确有些自己的看法,对不对先不论,这玩意儿也没有对错之分,每个人都有自己想法,当然也包括我博客虫了. 所以,有些东西.有些想法我还是愿意分享出来的,畅所欲言吧~~ 01 我眼中的大数据现状! 其实个人在大数据在大数据这个坑中,细细算来,时间也有3+年了,从一开始做大数据中心平台开发构建,到现在关注的数据上层应用挖掘.所以,基本上从数据