大数据与机器学习 2016年中盘点

本文将分以下几个部分进行盘点。

一、里程碑事件

二、开源项目(国际篇)

三、业界动态(国际篇)

四、开源项目(国内篇)

五、业界动态(国内篇)

六、下半年展望

七、周报集锦

里程碑事件

Hadoop 10岁了!

Hadoop诞生10年了。2006年1月28日,Doug Cutting和Mike Cafarella从他们的开源网络爬虫项目(Apache Nutch)中分离出分布式文件系统以及MapReduce设施,把它当作一个子项目,并称其为Hadoop。Doug Cutting发表了 Apache Hadoop at 10 ,他动情地回顾了自己与Hadoop故事,并提出了对未来的展望。

开源项目(国际篇)

Facebook

4月为Facebook Messager发布了基于bot的开发者平台:聊天机器人的目标是最终取代应用。用户不再需要在自己的设备上安装各种应用,而是使用Messenger来和各种的聊天机器人交互,从而完成各种任务,目前这些任务都是通过触屏界面由各种应用完成的。聊天机器人主要是依赖语音信息以及人工智能来完成指令

5月第一次正式介绍了 FBLearner Flow ,这是一个可以为全公司员工管理机器学习模型的机器学习软件。换句话说,这是一个可以自己制造人工智能的人工智能,你可以理解为传说中的人工智能母体

6月

开源 深度学习框架 Torchnet ,相比其他巨头自己搭建的深度学习框架,Torchnet 更加开放,也将大幅推进深度学习的应用普及

发布 文本理解引擎DeepText ,Facebook表示,DeepText能够以“接近人类的精确度”,理解人们的聊天内容。另外,依托后台的计算能力,这一工具每分钟能够分析、识别数千条网友评论或是聊天内容。在语种方面,这一工具已经能够分析20多种语言

Linkedin

3月 开源数据挖掘软件WhereHows :从商业角度讲,WhereHows的目标是从分布式的多种元数据中进行挖掘

4月开源 Hadoop 和Spark的性能监控和调优工具——Dr. Elephant :LinkedIn宣布开源Dr. Elephant,Dr. Elephant能够很好地帮助用户理解、分析和优化Hadoop和Spark的工作流。LinkedIn在去年第八届Hadoop Summit上第一次在社区呈现。

6月

开源 分布式对象存储系统 Ambry ,Ambry是一个是不可变对象的存储系统,非常易于扩展,它能够存储KB到GB大小的不可变对象,并且能够实现高吞吐和低延迟,该系统支持跨数据中心的双活部署,并且存储成本低廉。它特别适于存储各种媒体内容

开源 机器学习库Photon :Photon机器学习支持Apache Spark,通过结合Spark快速处理海量数据的能力和强大的模型训练和诊断工具,Photon机器学习提供给研究型工程师更多的信息来决策使用哪类推荐系统算法

Amazon

5月 开源 深度学习框架DSSTNE :亚马逊对于这套软件的性能很有信心,声称在亚马逊的云计算平台上,DSSTNE 比谷歌等竞争对手的计算速度快了 2.1 倍

Google

2月发布 TensorFlow Serving开源项目 ——更快的将深度学习模型产品商业化:Google软件工程师Noah Fiedel在博文中介绍,“TensorFlow Serving是一个高性能、开源的机器学习服务系统,为生产环境及优化TensorFlow而设计。它更适合运行多个大规模模型,并支持模型生命周期管理、多种算法实验及有效地利用GPU资源。TensorFlow Serving能够让训练好的模型更快、更易于投入生产环境使用

3月发布 云端机器学习和Tensor Flow的Alpha测试版本 :Google发布了alpha版本的TensorFlow(TF)集成云端机器学习服务,为回应不断增长的大规模在Google云端平台(GCP)运行Tensor Flow库的需要

5月开源 全球最精准自然语言解析器SyntaxNet :Google已经发布了开源的SyntaxNet自然语言神经网络框架,以帮助机器更好地理解自然语言。SyntaxNet中包括了Parsey McParseface,后者是一种专门用于“解剖”英语的语言解析器。Google称之为世界上最准确的语言解析器,并且已经放出了允许人们借助自有数据来训练SyntaxNet的全部代码

Twitter

5月

正式开源Heron :去年,Twitter对外宣布了新的分布式流计算系统Heron,随后消息称Twitter已经用Heron替换了Storm。据文中介绍,Heron支撑Twitter的所有实时分析业务已经有两年多了。它替代了之前使用的Apache Storm系统。Heron有很多架构方面的改进,而且向后兼容Storm生态系统

开源分布式高性能 日志复制服务DistributedLog :DL是一个高性能的日志复制服务,提供了持久化、复制以及强一致性的功能,这对于构建可靠的分布式系统都是至关重要的,如复制状态机(replicated-state-machines)、通用的发布/订阅系统、分布式数据库以及分布式队列

其他开源

Apache Beam将统一大数据平台的开发 :一直以来,大数据开发涉及到各种框架,比如,Hadoop、Storm、Spark和Flink等,基于这些框架的开发要求的技术栈都各不同,这对开发者来说开发成本比较高,在Beam的统一下可以实现写一个程序既能在Hadoop中运行又可在Spark中运行

Apache Apex成为Apache顶级项目 :Apache Apex是基于Hadoop的流处理和批处理引擎,目前成为Apache顶级项目

Microsoft开源其深度学习工具包CNTK :CNTK是一个统一的深度学习工具包,它通过一个有向图将神经网络描述为一系列计算步骤。在有向图中,叶节点表示输入值或网络参数,边表示输入之上的矩阵运算。CNTK使得实现和组合前馈型神经网络DNN、卷积神经网络(CNN)和循环神经网络(RNNs/LSTMs)变得非常容易。实现了支持跨多个GPU和服务器自动分化和并行化的随机梯度下降(SGD)学习

雅虎开源可以提升流操作速度的DataSketches :就像在Venture Beat上所宣布的那样,雅虎开源了DataSketches,这是一个用Java编写的随机流算法库。DataSketches允许进行通常来说开销很大的操作,像计算变量不同的值在流中出现的次数,而且消耗的时间少,占用的内存小,误差可预测

雅虎开源CaffeOnSpark:基于Hadoop/Spark的分布式深度学习 :雅虎认为,深度学习应该与现有的支持特征工程和传统(非深度)机器学习的数据处理管道在同一个集群中,创建CaffeOnSpark意在使得深度学习训练和测试能被嵌入到Spark应用程序

OpenAI发布开源人工智能研究工具集OpenAI Gym :该工具集用于开发和对比强化学习(RL)算法,这是现代机器学习研究的基础

DeepDetect——机器学习框架的API统一 :DeepDetect是一个专为深度学习的开源API和服务。它的API简单直观、易用、通用和易扩展

联合国平行语料1.0版发布 :联合国平行语料1.0版发布,包括阿英西法俄中六种语言,总共15个语言对,语料包含了1990-2014年的数据,规模都在1500万个句对以上

业界动态(国际篇)

人工智能再显身手,谷歌AlphaGo战胜李世石 :Google旗下DeepMind出品的AlphaGo连胜三局(五局三胜制)战胜韩国职业棋手围棋九段李世石。这将是人工智能领域的又一里程碑事件

微软大手笔收购LinkedIn让谷歌压力山大,这个搜索巨头将选择如何应对? :收购LinkedIn后,微软相当于为自己的软件推销策略找到了一个能够加快“变现”的强大助力——一个容纳了超过400万用户的社会数据集

eBay大数据新动作:收购瑞典大数据公司 :为了更好地组织产品数据以及使平台上产品更容易找到,eBay公司收购了一家专注人工智能,机器学习和大数据分析的瑞典公司

亚马逊AWS推出人工智能服务:与微软谷歌竞争 :亚马逊举行发布会宣布,旗下云服务Amazon Web Services(以下简称“AWS”)增加人工智能服务,可以让开发者在应用中增加预测和分析功能

谷歌在欧洲创建新的人工智能团队,专注机器学习 :谷歌在一篇博文里宣布,他们在欧洲建立了一个的新的人工智能研究团队,专注机器学习(ML)。欧洲的 Google Research (一个团队),以位于瑞士苏黎世的谷歌办公室为基地,这里也是美国以外谷歌最大的工程办公室的故乡

Microsoft 2016年Build大会:纳德拉将赌注押在人工智能上 :在此次大会上,纳德拉的主题演讲以Cortana和人工智能为中心展开。他介绍了微软的Bot框架(Microsoft Bot Framework)和新的认知服务(Cognitive Services)等最新进展

Facebook 帝国:手握十年路线图,AI及VR将成两大支柱 :规划展示了工程 + 研究的取向,可以预计Facebook会通过一些工程类的落地项目,不断积累数据、资金和用户,催生人工智能和虚拟现实产品,并最终改变人机交互形式

Google I/O 2016——人工智能真正的起点 :这次发布会可以说是有史以来内容分布最广的一届,覆盖了人工智能、物联网、车载系统、搜索、广告、软件、移动系统和虚拟现实等多个热门的方向和领域

Twitter收购Magic Pony Technology,利用神经网络优化图片和视频 :Twitter 在强化机器学习技术方面又迈出了重要一步,他们收购了Magic Pony Technology公司,帮助其在各渠道App上更好地提供图片和视频内容服务

Salesforce 收购人工智能创业公司 MetaMind :MetaMind 的通用平台能预测语言、视觉和数据库任务的结果

谷歌搜索集成RankBrain算法优化网页排名 :据搜索引擎研究网站Search Engine Land报道,近日搜索引擎巨头Google为自家搜索服务深度集成了新型算法RankBrain。RankBrain算法是Google基于机器学习人工智能技术开发出来的最新算法,真正解决“看起来比较复杂、陌生或有歧义的语句搜索”,专门用来优化搜索引擎的网页排名

现在Google制造自己的芯片,Intel要发疯 :Google的目标始终未变:空前的高效。为了让AI技术跃上一个新高度,他们需要一种能在更低能耗前提下,用更短时间完成更多任务的芯片。但这个芯片所产生的效果已经超越了Google帝国本身,甚至让Intel和nViaia这样的商业化芯片制造商的未来受到威胁,尤其是考虑到Google对于未来的愿景

英伟达20亿美元豪赌人工智能 :20亿美元是什么概念?英伟达去年全年的营业收入也才50亿美元出头,所以英伟达用了几乎一半的全年收入投入到这一款芯片的研发中,这背后的原因是,英伟达看中了人工智能领域未来的发展

AWS发布关系型数据库迁移服务 :这个按需使用的云服务支持实时的迁移场景,借助无模式的转换工具,在迁移过程中,用户可以使用该服务切换数据库平台

数据分析初创企业ThoughtSpot获5000万美元C轮融资 :ThoughtSpot是一家商业智能软件提供商,总部位于加州PaloAlto,由准备上市的云计算公司Nutanix的联合创始人Ajeet Singh成立于2012年。ThoughtSpot号称是全球第一款关系型搜索引擎

新加坡大数据公司Lynx Analytics拿到1000万美元投资,但是他们早就盈利了 :Lynx Analytics目前主要为企业提供大数据分析,运用图论理论将各种信息来源汇聚一起并施加分析,从而帮助企业精准刻画出其消费者画像,进而帮助企业推出客户所喜爱的产品并进行针对性地营销

谷歌新研究项目Magenta:利用人工智能创作艺术 :Magenta用来探索利用人工智能来创作艺术,同时为开源人工智能平台TensorFlow的用户简化这一过程

网站和移动应用数据分析公司Amplitude完成1500万美元B轮融资 :Amplitude是一家网站和移动应用数据分析公司,旨在帮助客户更好地驱动用户留存、活跃和转化

谷歌人工智能系统TensorFlow开始支持iOS :继2015年11月9日Google发布人工智能(AI)系统平台TensorFlow并宣布开源后,近日谷歌再次针对iOS系统平台发布了特别版TensorFlow。据称,特别版TensorFlow将首先登陆iPhone,届时iPhone将可以运行更为复杂的应用

内存数据库MemSQL获3600万美元C轮融资 :MemSQL是一种分布式内存数据库,可提供对大数据的实时分析功能,能同时支持 SQL 与 JSON 非结构化数据,像Apache

Spark,、Kafka一样,MemSQL也支持大数据的实时分析。不过不同的是尽管MemSQL提供有免费版本的数据库,但它本身是不开源的

综合

Hadoop Summit 2016:2016年4月,都柏林的Liffey河畔,Hadoop Summit 2016在Convention会展中心盛大开幕。大会主要议程历时2天,有100多场演讲,与会者超过1400人。主要内容包括Apache Committer洞察、数据科学、运营管理、开发技术、数据商务、物联网、Hadoop未来几大系列。我们为您做了一些梳理,参见: Hadoop Summit 2016欧洲峰会开幕Keynote回顾 , Hadoop Summit 2016会场回顾(二) , Hadoop Summit 2016会场回顾(三) , Hadoop Summit 2016会场回顾(最终篇)

Spark Summit 2016:Spark峰会是Spark领域内规模最大、最具影响力的工业会议。2016年的Spark峰会上,众多业界大咖为我们带来了Spark 2.0、机器学习、人工智能等方面的精彩演讲。参见: 《Spark旧金山峰会侧记》

Google, Facebook, Amazon, Apple的人工智能之争——收购AI开发团队 :在过去的三年内,已经有超过六成的人工智能开发公司陆续获得了赞助。就仅仅在 2016年,已经出现了4次重要的大型公司竞购

我们盘点了YC 投资的15个人工智能项目,发现了这3个特点 :2016 年 YC 开始砸向人工智能了,我们盘点了 YC 投资的 15 个人工智能企业,并试图从中发现产业的趋势

开源项目(国内篇)

国内方面,目前在大数据和机器学习方面的开源较少,潜力巨大。比较令人振奋的大事是,去年阿里巴巴正式加入Apache基金会,并将JStorm项目捐赠给后者。 Apache Storm 2.0将基于JStorm 。JStorm是中国第一个进入Apache核心产品的开源项目,对于中国的开源发展来说意义重大。

百度开源其人工智能系统:Warp-CTC :该系统是一种在CPU和GPU上快速的CTC的并行实现。这项举动举动对于促进机器学习、人工智能领域的技术研究与发展与有重要意义

华为Carbondata成为 Apache Incubator(孵化器)项目》 :Carbondata的目标是创建一种新的Hadoop文件格式,只用一份数据,满足多样化的数据查询需求,包括顺序读,OLAP查询,随机读

业界动态(国内篇)

巨头抢滩无人驾驶 “按捺不住”的百度将在美国测试无人车 :百度首席科学家吴恩达接受采访时称,百度很快就将在美国测试无人驾驶汽车,希望能在2018年前推出无人驾驶商用车型

京东成立JDX事业部 包含无人机及仓储机器人项目 :京东JDX事业部囊括京东全自动物流中心、京东无人机、京东仓储机器人及京东自动驾驶车辆送货等一系列智能物流项目,对行业前沿、高端的智能设备、智慧系统进行研究与创新

滴滴机器学习研究院升级为滴滴研究院 何晓飞任院长 :目前,滴滴研究院的研究方向包括:机器学习、计算机视觉、人工智能、数据挖掘、最优化理论、分布式计算等

科大讯飞4.96亿元收购乐知行,推动大数据与人工智能结合 :公开资料显示,北京乐知行软件有限公司成立于 2011年,是一家为中小学教育提供教育信息化整体解决方案的提供商。该公司利用云计算、大数据和移动联网技术,建立包括了数字校园、教育云平台、互联网教育和教育物联网在内的四大产品体系

华谊嘉信1.48 亿美元收购Smaato,打造“大数据+大内容”营销体系 :届时,公司将借助其多年来在移动广告领域的经验与优势,以及Smaato拥有的实时竞价技术和全球投放数据资源,全面推动华谊嘉信大数据营销与数字营销战略,打出“大数据+大内容”组合拳

达观数据获真格领投1000万天使投资,专注企业大数据服务 :达观数据创立于2015年, 是一家专注于大数据技术的高科技公司,为企业提供最专业的数据采集和深度挖掘、用户画像、智能推荐、搜索等SaaS服务,帮助企业实现基于大数据的营销,降低企业成本提高企业效益

中国厂商星环科技被Gartner列为国际主流Hadoop发行版厂商 :国际著名咨询机构Gartner发布了Hadoop发行版市场指南《Market Guide for Hadoop Distribution》1。星环科技入选为六家Hadoop发行版软件代表厂商之一

京东金融投资大数据公司数库 :数库是一家金融产业大数据服务公司,致力于解剖非结构化或半结构化大数据,为个人金融投资、企业决策、产业升级提供了全面和精准化的服务

“神策数据”获400万美元A轮,由红杉领投 :神策数据面向中小企业提供私人定制方案,帮助企业做用户行为的深度分析

第三方云推送平台“极光推送”完成千万美金C轮融资 :成立于2011年的“极光推送”是一家移动大数据服务平台,主要利用大数据、云计算技术为用户提供移动消息推送服务,是一家第三方平台

下半年展望

大数据

最值得期待的莫过于Hadoop 3.0和Spark 2.0正式版的发布。

参见: Hadoop 3.0新特性预览 和 Spark 2.0 预览:更简单,更快,更智能 。

人工智能

随着国内外科技巨头在人工智能“军备竞赛”的日趋白热化,我们有理由相信,下半年会有更多令人振奋的项目/产品面世,敬请期待。

====================================分割线================================

本文转自d1net(转载)

时间: 2024-07-30 20:44:28

大数据与机器学习 2016年中盘点的相关文章

大数据领域在 2016 年都有哪些成果及趋势?

外媒KDnuggets日前针对大数据领域在2016年度取得的重大发展,以及2017年度可能出现的变化趋势,询问了8位行业内的顶级专家. 虽然各位专家的意见不尽相同,但从其发言中大约可以总结出一个共通点:大数据研究正在由前几年的新鲜技术变得越来越普及和商业化.同时,由于研究的向前推进,以数据为基础的人工智能.机器学习和物联网等其他各个领域也将会取得越来越大的成果. 1.CraigBrown,大数据.数据科学.数据库技术领域专家.美国知名的青年导师.科技导师,以及作家. 在2016年,数据科学领域出

迎接大数据 国产数据库产品策略盘点

文章讲的是迎接大数据 国产数据库产品策略盘点,前不久的"棱镜门"让国人认识到发展国产软件的重要性,也被认为是国产数据库发展的重要契机.国产数据库在过去发展中一直受到国家的支持,但由于起步较晚,与国外主流数据库之间的差距还很大.但随着大数据时代的到来,国产数据库与国外数据库站在同一起跑线上,获得同样的机遇. 在国产数据库的阵营中,有三家厂商的产品不得不提,分别是南大通用的GBase.达梦数据库DM和人大金仓的Kingbase.接下来,笔者将对这三家国产数据库厂商的产品策略进行盘点,从中找

Palo Alto Networks 魏建伟:“大数据+机器学习”防范未知APT攻击

下一代防火墙的概念已经流行了好几年,作为这一概念的首创者,Palo Alto Networks可谓在安全领域掀起了一股风潮.近日,Palo Alto Networks安全顾问魏建伟接受笔者的采访,畅谈对于下一代防火墙以及企业安全发展趋势的看法. "可以毫不夸张地说,目前市面上的防火墙只有两种思路,那就是Palo Alto Networks的下一代防火墙和传统防火墙."魏建伟表示. 魏建伟的底气来自于Palo Alto Networks在业内的领导地位.Gartner每年发布企业网络防火

宽带运营商大数据和机器学习支出将突破500亿美元

根据市场研究公司ABI Research发布的最新预测显示,由于进行数字服务供应商转型,2021年移动宽带运营商在大数据和机器学习的支出将超过500亿美元. 宽带运营商大数据和机器学习支出将突破500亿美元 责任编辑:editor004 作者:Oscar译 |  2016-10-12 10:40:52 本文摘自:OFweek光通讯网 根据市场研究公司ABI Research发布的最新预测显示,由于进行数字服务供应商转型,2021年移动宽带运营商在大数据和机器学习的支出将超过500亿美元. 电信网

运营商大数据和机器学习投入2021年将超500亿美元 爱立信华为将受益

到2021年,移动运营商将投入超过500亿美元用于大数据和机器学习, ABI Research预测. 机器学习技术将令运营商深刻改变管理电信业务的方式,这家市场调研公司表示. "基于机器学习的预测分析适用于电信业务的方方面面."ABI Research常务董事.副总裁乔·霍夫曼(Joe Hoffman)称,"重要的是,运营商掌握和内在化这些技术,而不仅仅依赖于其供应商的专业知识." 霍夫曼指出,机器学习能通过经济利益导向的应用包括欺诈缓解和收入保障,为运营商的运营带

《贵州省大数据发展报告(2016)》白皮书发布

5月26日,2017中国国际大数据产业博览会上发布了<贵州省大数据发展报告(2016)>白皮书.白皮书从发展历程.丰硕成果.问题与挑战以及未来发展重点几个方面全景式反映了近年来贵州省大数据的发展状况,阐明了未来贵州省大数据的发展重点. 白皮书综述了2012年以来,我省发挥优势.瞄准机遇.先行先试,积极推进大数据战略行动,大数据发展由探索起步到展翅腾飞的简要历程,总结了我省大数据产业发展在顶层设计.基础建设.数据融通.产业发展.融合运用.建规立制等方面的主要做法及成效. 白皮书还总结了当前我省大

最全解析:大数据和机器学习有什么区别

大数据的定义 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产. 大数据是一个笼统的概念暂未发现和准确的定义. 大数据的核心是利用数据的价值,机器学习是利用数据价值的关键技术,对于大数据而言,机器学习是不可或缺的.相反,对于机器学习而言,越多的数据会越 可能提升模型的精确性,同时,复杂的机器学习算法的计算时间也迫切需要分布式计算与内存计算这样的关键技术.

卡耐基梅隆大学教授邢波:Petuum,大数据分布式机器学习平台

[CSDN现场报道]2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办,以推进大数据科研.应用与产业发展为主旨的 2014中国大数据技术大会 (Big Data Technology Conference 2014,BDTC 2014)暨第二届CCF大数据学术会议在北京新云南皇冠假日酒店盛大开幕. 2014中国大数据 技术大会首日全体会议中,卡耐基梅隆大学教授.ICML 2014程序主席邢波带来了名为"A New Platfo

技术创业难?看汇合营销如何玩转大数据与机器学习

11+大数据行业应用实践请见https://yq.aliyun.com/activity/156,同时这里还有流计算.机器学习.性能调优等技术实践.此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps:更多精彩内容参见大数据频道:https://yq.aliyun.com/big-data . 自开始大数据创新案例探索之后,汇合营销(杭州汇江容海网络有限公司)是笔者走进的第二家公司,在拜访过程中, 通