Facebook 基于十亿单词量构建高效神经网络模型

使用神经网络进行序列预测是众所周知的计算机科学问题,在语音识别、机器翻译、语言建模和其他领域中都有着广泛的应用。这种预测使用的模型对计算能力要求很高,这限制了它们的实际应用。

Facebook AI Research的科学家设计了自适应的softmax算法,这是一种为GPU定制的近似算法,可在庞大的单词量基础上高效地训练神经网络。如公开发表的论文中所描述的,自适应softmax利用单词在大语料库中的不均衡分布,形成可以最小化计算复杂度的群集。完全softmax与词汇库大小线性相关,而自适应softmax是次线性相关的,并且针对GPU进行了优化。

在开发softmax的同时,Facebook研究人员发布了开源库torch-rnnlib,帮助研究人员设计和测试GPU中的递归模型。有了torch.cudnn,可以使用NVIDIA CUDA Deep Neural Network库轻松访问基线。RNN、LSTM、GRU和其他递归神经网络都有具体的实现,研究人员可以很容易地把它们用于递归神经网络的设计。

Facebook研究人员在单个GPU上对该算法进行测试,速度达到了每秒12500个单词,同时保持精确度接近完全softmax。从基准困惑度来看,谷歌公司的Jozefowicz等人在2016年使用32个GPU训练了3个星期得到30的困惑度(越低越好),同时使用18个GPU训练了几天得到44的困惑度。Google使用Tensorflow实现的LSTM模型发布在Github上,它的主要作者在Reddit的相关话题中提出了一个有趣的方法来解释困惑度。相反地,自适应softmax可以在大约14小时内达到50的困惑度,在一两天内达到43.9的困惑度以及在六天内达到39.8的困惑度。如果没有CuDNN库,性能下降约30%。所有工具和技术都针对EuroParl和十亿字语料库进行过测试,这些语料库是当前可获得的最大的几个语料库。

文章转载自 开源中国社区 [http://www.oschina.net]

时间: 2024-08-31 20:30:17

Facebook 基于十亿单词量构建高效神经网络模型的相关文章

Facebook通过10亿单词构建有效的神经网络语言模型

由于在语言识别.机器翻译和语言建模等领域表现出了优异的性能,为序列预测而设计的神经网络最近再次引起了人们的兴趣,但是这些模型都是计算密集型的,成本非常高.比如在语言建模领域,最新的成果依然需要在大规模GPU集群上训练几周的时间,虽然效果不错,但是这些计算密集型的实践对大规模计算基础设施的依赖性非常强,这限制了其在学术和生产环境中的研究速度与应用. 针对这一计算瓶颈,Facebook AI 研究院(FAIR)设计了一个新的.几乎是为GPU量身定制的softmax函数,能够非常有效地通过大规模词库训

Facebook:应用内链崛起 APP Link链接超十亿

硅谷网讯 在年初的F8开发大会上,社交网络http://www.aliyun.com/zixun/aggregation/1560.html">Facebook,推出了一个让移动应用软件的内容相互链接的技术标准体系App-Link,这可以让移动应用实现类似互联网网页的相互跳转.日前,Facebook宣布,基于这一技术的链接数量,已经超过十亿个. 经常使用APP的网民会发现,从一个应用内部跳转到其他应用,十分麻烦,每一个APP,甚至正在形成一个信息孤岛,这违背了互联网的开放精神.而Faceb

D1net阅闻:Facebook聊天工具Messenger用户突破十亿人

Facebook聊天工具Messenger用户突破十亿人   PC互联网时代的社交网络霸主Facebook,正在成为移动互联网时代的移动聊天霸主.继WhatsApp用户已经超过十亿人之后,其另外一款聊天工具Facebook Messenger用户规模也超过了十亿人.   英特尔第二财季净利润13.3亿美元 同比降51%   7月21日消息,英特尔发布了该公司截至7月2日的2016财年第二财季财报.财报显示,英特尔第二财季营收为135亿美元,同比增长3%:净利润为13.3亿美元,同比下滑51%.

《江南Style》成YouTube首个点击量破十亿视频

12月22日消息,韩国艺人PSY"鸟叔"的<http://www.aliyun.com/zixun/aggregation/9960.html">江南Style>视频点击量,首次突破了十亿大关. 这成为YouTube首个点播量突破十亿的视频.该视频也是被最多人标注"Like"的视频. "鸟叔"此前曾经发行了五张专辑,但是直到7月15日其发布"骑马舞"视频之后,他才被全世界所熟知. 7月28日,该段视

继WhatsApp后 Facebook聊天工具Messenger用户也突破十亿人

 PC互联网时代的社交网络霸主Facebook,正在成为移动互联网时代的移动聊天霸主.继WhatsApp用户已经超过十亿人之后,其另外一款聊天工具Facebook Messenger用户规模也超过了十亿人. 据美国科技新闻网站CNET报道,Facebook周三对外宣布了这一里程碑的消息.这意味着Facebook一家,拥有了两款月活跃用户超过十亿人的手机聊天工具. 在两款工具中,WhatsApp是Facebook当年斥资220亿美元收购而来,目前已经成为全球手机聊天的霸主.统计显示WhatsApp

Oculus和Facebook合作研发MMO游戏 用户可达十亿

Oculus的CEO布伦丹?艾瑞比(Brendan Iribe)今日透露,未来与http://www.aliyun.com/zixun/aggregation/1560.html">Facebook合作的宏大前景之一:创建一款十亿用户可同时参与虚拟现实的MMO(大型多人在线)游戏.当Facebook斥资20亿美元购买虚拟现实(VR)设备开发商Oculus时,两者对将来的目标均守口如瓶.人们曾预测这笔钱将帮助Oculus研发价 格更便宜.质量更优的虚拟现实耳机,而Facebook将拥有引领新

【转贴】两年内从零到每月十亿 PV 的发展来谈 Pinterest 的架构设计

来源: http://www.oschina.net/translate/scaling-pinterest-from-0-to-10s-of-billions-of-page-views 英文原文:Scaling Pinterest - From 0 to 10s of Billions of Page Views a Month in Two Years 标签: <无> 45人收藏此文章, 我要收藏oschina 推荐于 5天前 (共 17 段, 翻译完成于 04-19) (7评)   

如何做到“恰好一次”地传递数十亿条消息

在分布式领域中存在着三种类型的消息投递语义,分别是:最多一次(at-most-once).至少一次(at-least-once)和恰好一次(exactly-once).本文作者介绍了一个利用Kafka和RocksDB来构建的"恰好一次"消息去重系统的实现原理. 对任何一个数据流水线的唯一要求就是不能丢失数据.数据通常可以被延迟或重新排序,但不能丢失. 为了满足这一要求,大多数的分布式系统都能够保证"至少一次"的投递消息技术.实现"至少一次"的投递

云计算用1.5KB内存为十亿对象计数方法

为了更好地理解已经明确基数的大数据集的挑战,我们假设你的日志文件包含16个字符的ID,并且你想统计不同ID的数量.例如: 4f67bfc603106cb2 这16个字符需要用128位来表示.6万5千个ID将需要1MB的空间.我们每天收到30多亿条事件记录,每条记录都有一个ID.这些ID需要3840亿位或45GB的存储.而这仅仅是ID字段需要的空间.我们采取一种简单的方法获取日常事件记录中以ID为基数的数据.最简单的办法就是使用哈希集合且存放到内存中,其中哈希集包含唯一ID的列表(即输入文件中可能