2017年 2月4日到8日,IEEE 高性能计算架构会议( HPCA 2017 )在美国的奥斯汀举行,这是计算机体系结构的国际顶级会议之一,一起召开的还有编译和算法领域的CGO以及PPoPP。
中科院计算所研究员韩银和总结说, 今年大陆有3篇论文入选,不到总论文数的1/10,和其他方向相比,体系结构还是美国难以撼动的优势领域,追赶的路还很长。
根据中科大神经网络架构研究团队的博士王超的统计,在HPCA会议(1995-2016)上发表过论文的知名华人学者包括来自UCSB的谢源教授(9篇),佛罗里达大学的李涛教授(8篇),匹兹堡大学的张有弢教授(7篇),以及UCSD的周源源教授(6篇)。
韩银和同时带来一个消息:UCSB的谢源教授当选明年(HPCA2018)的程序主席。这是华人学者在体系结构体系上地位提升的一个标志性事件。
中国在体系结构研究实力
在计算机体系结构的三个顶级会议中,来自中国大陆的团队研究论文非常少。据统计,大陆第一单位在ISCA会议上发表的论文共18篇,其中陈云霁和陈天石研究员团队在ISCA上发表了4篇论文。而对HPCA会议来说,大陆第一单位会议上发表的论文共17篇。MICRO会议,1994年之前中国有9篇论文,然后从2009年至今有10篇论文,共19篇。 不过总体来看,大陆第一作者的论文数量呈现上升趋势。
然而值得注意的是,近年来,不仅仅大陆第一作者论文数量的提升,第一作者是华裔学生及研究人员的论文数量也大幅提升,显示出华人研究人员在未来体系结构研究领域的实力。例如ISCA 2016在所有的57篇论文中,有21篇论文的第一作者是华人研究人员,HPCA 2017的一作华人论文有19篇,MICRO 2016也有19篇,大体占到了论文总数的三分之一左右。
HPCA 2017 最佳论文归属英特尔团队
2月8日,新智元从谢源教授处得到消息, HPCA 2017 本年度的最佳论文已经公布。来自英特尔的论文《Near-Optimal Access Patitioning for Memory Hierarchies with Multiple Heterogeous Bandwidth Sources》摘下桂冠。
摘要
存储墙仍然是性能的瓶颈。虽然小型管芯缓存到目前为止的性能尚足以隐藏这个瓶颈 ,但是现代的应用中不断增加的占用使得这样的缓存效果越来越差。近年来,内存技术,比如嵌入式DRAM(eDRAM)和高宽带存储(High Bandwidth Memory)的进步,使得在 CPU 封装上集成大型存储,作为一种额外的带宽资源而不是DRR 主存储成为可能。由于容量的限制,这些存储一般都会被当成一个内存侧的缓存。受到传统思路的启发,许多致力于提升系统性能的优化都在尝试将内存侧的缓存的命中率最大化。一个更高的命中率能让人更好地利用缓存,进而被认为能带来更高性能的表现。
在本论文中,我们队这种传统的思路进行了挑战,并提出了一个动态存取分割(Dynamic Access Partitioning)算法,也称DAP。它牺牲了缓存的命中率,来利用主存储中未被利用的带宽。DAP 通过使用一个轻量的学习机制,只需要额外硬件的16个字节,便能在内存侧缓存和主内存之间获得一个近似最优化的带宽。模拟的结果显示,在一个片叠式(die-stacked)内存侧DRAM 缓存上采用DAP,可以获得13%的性能。我们还证明了,DAP 在不同的实现、带宽点和内存侧缓存的容量点上都能带来较大的性能优势,使得它对任何超越芯片上SRAM 缓存层次的、基于多相带宽资源的当下或者未来系统都是有价值的。
不容忽视的最佳论文提名:跨平台深度学习架构
不过,在本届会议中,另一篇被提名最佳论文的研究《Toward Pervasive and User Satisfactory CNN across GPU Microarchitectures》引起了我们的注意。这篇论文来自佛罗里达大学电子和计算机工程系的教授李涛和他的该校的同事。论文提出了 Pervasive CNN (P-CNN)——一个注重用户满意度的CNN 推理框架。P-CNN 在不同的推理任务中能提供最佳的用户满意度。
摘要
在GPU 上加速卷积神经网络通常包含两个步骤:训练和推理(Inference)。传统上,这两步处理都在含高端GPU配置的服务器中进行。台式机和手机GPU计算力的不断增长,使得在各种各样的平台上进行推理的兴趣不断地增长。与训练阶段所需要的高吞吐量和高精度不同,在与推理相关的任务中,终端用户面临着更多样化的要求。
为了跟进这一新兴趋势,满足新的要求,我们提出了 Pervasive CNN (P-CNN),这是一个注重用户满意度的CNN 推理框架。P-CNN 有两个组成部分:跨平台离线编译(compilation)和运行时间管理。根据用户的需求,离线编译使用架构独立技术,比如自适应批处理量大小选择(adaptive batch size selection )和协同微调(coordinated fine-tuning)来生成最佳内核(optimal kernel)。运行时间管理阶段由准确率修正、执行和校正组成。首先,准确率修正会在可接受的准确率下动态地确定最快的内核。然后,运行时间内核调度器会为每一层神经网络分配出最优的计算资源,调度GPU 线程。如果获得的准确率对于终端用户来说是不能接受的,校正阶段会选择一个更慢但是更加精确的内核来提升准确率。最后,我们为 CNN 设计了一个用户满意度衡量指标,用于评估我们的 Pervasive 设计。我们的测试结果显示,P-CNN 在不同的推理任务中提供最佳的用户满意度。
李涛是佛罗里达大学电子和计算机工程系的教授。他在德克萨斯大学 获得计算机工程博士学位。他的研究兴趣包括计算机架构、微处理器/记忆/存储系统设计、虚拟技术、节约型/可持续/可依赖数据中心、云/大数据计算平台、计算机信息技术与应用以及计算机系统的评估。
- 李涛曾获得美国国家自然基金 Faculty Early CAREER Awards。
- 2006-2008年连续3年获得 IBM Faculty Awards。
- 2008获得 Microsoft Research Safe and Scalable Multi-core Computing Award
- 2006 获得 Microsoft Research Trustworthy Computing Curriculum Award
- 李涛博士多次在结构领域顶级会议获得最佳论文提名,如HPCA 2017, ICPP 2015, CGO 2014, DSN 2011, MICRO 2008 和 MASCOTS 2006
2017,体系结构大会在中国
今年在中国举办的两个体系结构大会:
4月在西安召开的 ASPLOS
ASPLOS(编程语言和操作系统的体系结构支持会议)是ACM开办的一个以体系结构为核心内容的多学科会议,其研究领域跨越硬件、体系结构、编译器、编程语言、操作系统、网络和应用,尤其关注这些学科间的交叉性研究课题。
ASPLOS一年仅录用20多篇论文,几乎每篇都会受到计算机领域的大量引用。
将于10月份在上海召开的SOSP
SOSP 50多年来第一次来亚洲。SOSP是一个相对古老的会议,它是由ACM下属的SIGOPS (the ACM Special Interest Group on Operating Systems)于1967年创办。这个会议是两年举行一次,迄今为止已经举办了25届,每届收录的文章在20篇左右。
文章转自新智元公众号,原文链接