深到骨子里的自律,是每周坚持刷几篇最新论文 | PaperDaily #10

[ 自然语言处理 ]

Don't Decay the Learning Rate, Increase the Batch Size
@RamonYeung 推荐

埋下伏笔:来自 Google Brain 的论文。

文章主要讲明白四点:

1, 主动降低学习率(Decaying the Learning Rate)是模拟退火,因为降低学习率导致 SGD 训练时,随机波动的幅度也减少了;

2,我们提出一个替代方案:不降低学习率,在训练时提高 batch_size。在训练相同 #epochs 下,这种策略在测试集上达到了几乎相同的模型性能,但是显着减少了参数更新的次数。我们的方案不需要通常的训练做法(Fine-tuning)。当需要将学习率降低为原来的 1/α 时,我们将 batch_size 改为原来的 α 倍。

3, 参数更新次数可以进一步缩短:

  • 提高学习率 ϵ,同时按 B∝ϵ 的方式提高 batch_size;
  • 提高动量系数(Momentum Coefficient)m, 同时按 B∝1/(1−m) 的方式提高 batch_size。

4, 结合这些策略,我们在 ImageNet 上对 Inception-ResNet-V2 进行 2500 次参数更新,达到 77% 的验证集精度。为了实现这一点, 训练时 batch_size=65536。相比之下,Goyal 等人(2017)需要 14000 个参数更新, 使用 ResNet-50 达到 76% 的验证精度,batch_size=8192。

前提是:你有钱买更多的 GPUs 装入更大的 batch_size。

论文链接
http://www.paperweekly.site/papers/1071

Memory-augmented Neural Machine Translation
@yuer3677 推荐

该篇文章将传统 SMT 的词对应关系以 Memory 的形式组合到 NMT 上,结合了两者的优势。一方面增加了 rare word 的出现概率,提升了翻译 performance;另一方面提供了一种解决 unknown words 的思路。该方法尤其在小数据集上效果明显。

论文链接
http://www.paperweekly.site/papers/1037

Sequence-to-Dependency Neural Machine Translation
@jerryshi 推荐

1, 文章有什么贡献? 提出了一种新的 Sequence-to-Dependency Neural Machine Translation (SD-NMT) 的方法,来将目标语言句法知识利用进了 NMT 系统,相比起没有使用句法知识的基准 NMT 系统,性能得到了相对的提高。
2, 研究的问题有何价值?目前的 NMT 系统主要是直接用线性 RNN 来进行 Seq2Seq,但是这样的系统对于捕捉不明显的长距离词的依存还是有很大难度的。因此在解码的时候,将句法知识考虑进解码器中后,可以提高翻译结果语法的正确性,并且也可以利用局部依存信息来生成之后的词语。
3, 研究问题有什么挑战?一,如何利用 RNN 来构建句法结构;二,如何在一个神经网络中,有效地同时进行词语生成,还有句法结构的构建;三,如何有效地利用目标语言的句法背景,来帮助词语的生成。

4. 本文的解决思路?

利用了两个 RNN 网络,Action RNN 和 Word RNN,分别进行词语生成和句法结构的构建。Action RNN 利用了 transition-based dependency parsing(基于转换的依存句法分析)中的 arc-standard shift-reduce algorithm 算法,来生成构建所需依存结构的动作。而同时因为两个 RNN 生成的的序列长度不一致,所以 Word RNN 利用了些技巧,使得它能够参考 Action RNN 的结果输出词语,或者保持不变以和 Action RNN 的时序保持一致。

通过定义生成依存结构时的栈顶部两个词语,最左和最右修饰语的一元和二元语言特征,生成相对当前词汇的局部依存背景。之后将这个背景与 Word RNN 的输出结合起来,帮组生成新的词汇。

论文链接
http://www.paperweekly.site/papers/994

[ 计算机视觉 ]

Margin Sample Mining Loss: A Deep Learning Based Method for Person Re-identification
@LUOHAO 推荐

  1. 文章提出了一种新的度量学习方法 Margin sample mining loss - MSML。Triplet loss 是一种非常常用的度量学习方法,Quadruplet loss 和 Triplet hard batch loss(TriHard loss)是它的两个改进版本,而 MSML 是吸收了 Quadruplet loss 和 TriHard loss 两个优点的综合体,实验证明 MSML 能够在 person ReID 的公开数据集上取得很好的结果;
  2. 这个方法不止可以应用于 person ReID,而是一种通用的度量学习方法,进一步可以延伸到图像检索等相关的各个领域。

论文链接
http://www.paperweekly.site/papers/1069

Fader Networks: Manipulating Images by Sliding Attributes
@Gapeng 推荐

跟其他 GAN 方法不同,Fader nets 通过在隐层编码引入对抗来实现属性相关编码和属性无关编码的分离。D 尝试从 Encoder 的编码中预测出属性,而 Encoder 则尽量学习不带属性的编码,以使 D 的预测失效。Decoder 接收 Encoder 的编码以及额外的属性作为输入,以重构/修改图像。文章的效果非常好,目前复现存在难度,过段时间作者会开源代码。

论文链接
http://www.paperweekly.site/papers/1009

Scale-adaptive Convolutions for Scene Parsing
@lisabug 推荐

ICCV'17 Poster。 简而言之,文章提出了一个 scale-adaptive 的 dilation conv层。

1. 与 fixed coefficient 的 dilation conv 相比,本文提出的 scale-adaptive conv 层通过前一层的 feature 对于每一个位置预测一个 variant coefficient。对于大物体,我们应该需要更大的感受野,因此得到一个大的系数;对于小物体,我们应该关注细节而忽略背景,则缩小感受野更加强调细节的 feature。可以参考文章图 3 理解;
2. dilation 系数非整数时,使用常见的 STN 中的 bilinear interpolation 做到可以 e2e 的学习;
3. 合理的初始化系数回归层的参数,并在训练时进行对其 clip,使得 dilation 系数位于一个合理的范围内;
4. 文章提到在高层使用效果较好;
5. 即插即用,较小的额外参数和计算开销。相比 baseline 不加多尺度训练的情况下可以在 cityscape 上涨 2 个多点。

论文链接
http://www.paperweekly.site/papers/1056

[ 机器学习 ]

Paraphrase Generation with Deep Reinforcement Learning
@paperweekly 推荐

用增强学习来解决端到端 paraphrase 生成问题,取得了不错的效果。
论文链接
http://www.paperweekly.site/papers/1048

A generative vision model that trains with high data efficiency and breaks text-based CAPTCHAs
@AkiyamaYukari 推荐

一种新的概率生成模型(probabilistic generative model )被提出了,而且在一定任务上表现超过了现有的神经网络。
论文链接
http://www.paperweekly.site/papers/1005

Reparameterizing the Birkhoff Polytope for Variational Permutation Inference
@tmasada 推荐

This paper proposes new probability distributions on permutations. The variational inference is performed by using reparameterization trick.
论文链接
http://www.paperweekly.site/papers/1007

时间: 2025-01-30 18:07:51

深到骨子里的自律,是每周坚持刷几篇最新论文 | PaperDaily #10的相关文章

思想大于工具 企业协同办公将走向平台化

互联网时代,工作变得越来越高效,也需要越来越高效,这点毋庸置疑.这也是企业之所以开始使用协同办公工具的源动力.但有时候,这种动力有些不足.工具的推动往往是自上而下的,老板和员工对工具的理解和应用还存在很多差异.而改变这种状况的一个比较理想的的思路是,超越工具本身,让管理回到思想上来.  "有管理思想的管理工具"听起来就令人振奋.这就好像一本"能帮你写作文的新华字典",字典只是工具,但人们真正想要的是写出好的文章.企业协同办公工具并不是核心,管理好企业流程才是.随着企

【智驾深谈】特斯拉发布新一代 Autopilot 勇闯 L5,续写冰与火之歌

12月31日,2016年的最后一天,特斯拉对外宣布,开始在1000辆汽车上推送软件更新,如果一切顺利的话,下周更多的汽车将会接收到升级推送.本次更新包括了Autopilot 的交通感知巡航控制功能.前方碰撞预警和自动转向(Autosteer),其中,Autosteer 是 Autopilot 的旗舰功能,但是目前只能在"低速"下启动.特斯拉对此次升级非常慎重,软件团队在公司的内部视觉团队(特斯拉视觉).机器学习技术和数据收集车队中加入安全特性后才会展开升级推送. 早在今年10月Auto

专访深鉴CEO姚颂:把芯片的专用和通用看作两极,那么中间任何位置都可有所作为

全球最大存储器厂商(三星)和全球最大Fintech独角兽(蚂蚁金服)的加持对这家成立不到两年的初创公司意味深长. 昨天,深鉴科技召开了成立以来的第一次新品发布会,正式宣布已完成约4000万美金的A+轮融资.本轮融资由蚂蚁金服与三星风投领投,招商局创投与华创资本跟投.深鉴科技创始人.CEO 姚颂表示,本次融资将继续用于安防.数据中心领域及后续芯片产品的开发.深鉴与三星将展开包括存储在内的多方面合作.而蚂蚁金服的战略资源注入,将帮助深鉴进一步开拓包括金融在内的更多应用场景,而关于金融领域的进一步布局

5500万元入股深信服科技兰馨亚洲看好细分市场

近日,本报独家获悉,兰馨亚洲在去年年底以5500万元入股深信服科技有限公司(以下简称深信服),这是双方首次向外披露本次交易. 这也是深信服的首度融资.这家公司在过去三年中,连续被列为德勤"中国高科技.高成长50强". 细分市场的诱惑 成立7年来,深信服每年的增长速度为200%到300%,目前团队发展至400人.2007年合同销售收入为1亿元,净利润率在20%左右. 深信服董事长何朝曦告诉记者,在竞争激烈的网络设备市场,小企业的竞争策略就是抓住细分市场. "争取在前沿网络设备的

深鸿基转让非地产公司股权

深鸿基(000040)公告称,为集中资源发展房地产业.加快剥离传统产业,公司将持有的三家非房地产业务的公司股权进行转让,转让价格合计2.88亿元. 公告显示,公司将持有的深圳市迅达汽车运输企业公司100%股权转让给颜淑水.欧新民.陈茂成等三人及其所代表的迅达公司其他99名员工,转让价格为2.16亿元.股权转让后,公司不再持有迅达公司股权. 此外,公司将持有的深圳市深运工贸企业有限公司95%股权和深圳市鸿基酒店管理有限公司10%股权转让给吴春月.谢瑞宁.刘毅及其所代表的工贸公司.深圳市鸿基酒店管理

清科:深创投已在创业板退出10笔

截至昨日收盘,创业板指数已五连阳,全天大涨2.11%. 创业板成吸金主要阵地,创投套现意愿"强劲" ◎ 聚焦创投退出创业板 早报记者 忻尚伦实习生 王倩 截至昨日收盘,创业板指数已五连阳,全天大涨2.11%,收于1208.45点,创下历史新高. 与此同时,根据早报记者的统计,从今年11月1日首批创业板公司原始股解禁后至今,通过大宗交易平台套现的金额已经达到21.1646亿元.而创投公司(包括PE和VC)的退出意愿极为强劲,清科研究中心发布的最新数据显示,深圳市创新投资集团有限公司(简称

王泛森院士——如果让我重新读次研究生

        王泛森(1958- ),台湾云林人.1980年台湾大学历史系毕业.1983年台湾大学历史研究所毕业,旋即入伍服役.1985年任台湾"中央研究院"历史语言研究所助理研究员.1987年,入美国普林斯顿大学东亚系博士班.1993年,获普林斯顿大学博士,同时升任台湾"中央研究院"历史语言研究所副研究员,开始任教于台湾大学历史系及台湾清华大学历史研究所.1998年,升任历史语言研究所研究员.1999年,任香港中文大学历史系客座教授. 一.研究生与大学生的区别

15个月体验过微软+腾讯+阿里后的交互设计总结

  今年7月正式入职之前,我一共有3个公司(Tencent+Microsoft+Alibaba)合计15个月的实习经历,其中后2份设计相关的实习(UX Design Intern @ Microsoft,Interaction Design Intern @ Alibaba)教会了我很多很多,也很幸运一路遇到过不少真心关照我的师傅和同事,但是一直没有系统总结过收获,就借着这个题目说一下吧. 本文为作者授权优设发布,未经作者本人授权请勿转载,谢谢 :) 1.目标场景导向,在做任何事情之前都要思考和

今日头条APP,北京字节跳动科技已经完成了红杉领投的1亿美元的C轮融资

你看到这篇文章的时候,今日头条APP,也就是北京字节跳动科技有限公司(以下称"字节跳动"),已经完成了红杉领投的1亿美元的C轮融资, 微博 同时参与跟投.张一鸣的"字节跳动"估值高达5亿美元. APP越来越值钱?2014年初,安卓应用搜索(现扩展为"移动内容搜索")APP豌豆荚B轮融资1.2亿美元.再往前, 百度 以近19亿美元收购91无线.还有,接近神话的, Facebook 宣布190亿美元收购Whatsapp. 用户数量决定估值的耀眼度.来