MIT最新发布编程语言Milk,加速大数据时代并行运算

导读:本周MIT最新发布新编程语言Milk,新的程序语言在大数据方面能实现比现有语言快四倍的处理速度。

在当下的计算机芯片中,内存管理是基于计算机科学家所称的局部性原理(principle of locality)来实现的:

如果一个程序需要某个内存位置的数据块,它可能也需要数据块临近位置的数据。

但是在大数据时代,这种假设已不再成立。如今的计算机程序更多地是在大型数据集中离散地获取一点点数据。由于从主要内存位中获取数据已成了当下芯片的最大性能瓶颈,所以不得不更加频繁地获取数据,这也明显拖慢了程序运行的速度。

本周在国际并行体系结构和编译技术会议(International Conference on Parallel Architectures and Compilation Techniques)上,来自麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员发布了一种新的编程语言——Milk,它能让应用程序开发者在处理大数据集里的离散数据点问题中更有效率地管理内存。

通过测试几种通用的算法,使用新语言Milk编写的程序实现了比现有编程语言快4倍的速度。但是研究者相信通过更进一步的研究可以实现更好地结果。

电气工程和计算机科学教授Saman Amarasinghe 说,当下大数据集给已有的内存管理技术带来问题的原因不仅在于因为它们的规模巨大,更多的是因为它们是稀疏的(sparse)。也就是说,问题解决方案的规模并不一定是与问题的规模成正比增加。

“在社交环境中,我们通常倾向于注重更小的问题。” Amarasinghe说“如果你只关注在这种建筑[CSAIL]内的人的话,你能发现我们都是朋友的。但是如果你以地球的层面来看待的话,朋友的数量并不会增加。整个地球有几十亿人口,但是我也仅仅只有几百个朋友。这就是一个很明显的稀疏性问题。”

同样Amarasinghe提到,一个在线书店可能为其1000名顾客提供最流行的20本书籍的书单。但是但其顾客数增加到100万时,它并不会相应地提供最流行的20000本书籍的书单。

局部思考(Thinking locally)

当下的计算机芯片并没有专门针对稀疏数据进行优化,而且可以说是完全相反。因为从芯片的主要内存位读取数据是缓慢的,当下的芯片中每个内核或者每个处理器都有自己的“缓存”,一个相关的小型、本地、高速的内存位。芯片中的内核会一次读取一个完整的数据块,而不是在主内存中每次提取一个单独的数据。而读取的数据块是通过局部性原理来进行选择的。

通过图像处理的例子可以很容易看清局部性原理的本质:

如果一个程序的目的是将视觉过滤器应用到图像中,且它每次只作用在图像的一个数据块上。那么每次芯片内核请求一个区块数据时,它应该收到自身缓存能接受的所有临近区块数据。因此它可以一个一个区块处理,且不再获取更多的数据。

但是如果该算法的兴趣是在线书店200万数据库中的20本书的话,该方式将不再适用。如果它请求与某一本书相邻的数据,很有可能其相邻的100种书的数据都是没有关联的。

从主内存中每次只读取一个数据是非常低效的,这篇论文的第一作者Vladimir Kiriansky 提到

就像是每次你想要一勺食品时,你都需要打开冰箱、打开牛奶盒、倒出一勺牛奶、盖上牛奶盒、将它放回冰箱。

他是电气工程和计算机科学的博士生。Amarasinghe 和 Yunming Zhang 是他的论文合作者,Zhang 也是一位电气工程和计算机科学的博士生。

批处理(Batch processing)

Milk简单地增加了一些命令到OpenMP中。其中OpenMP 是一种能够用在C或Fortran等语言中的扩展,可以用来更轻松地为多核处理器编写代码。使用Milk的话,程序员可以在任何指令附近插入几行代码,其可以在整个大数据集中进行迭代,寻找相对较少数量的项。Milk 的编译器(将高级代码转换成低级指令的程序)可以据此找到管理内存的方法。

使用 Milk 程序时,如果一个内核发现它需要一项数据时,它并不会请求从主内存中读取它(以及相邻的数据)。它会将该数据的地址添加到一个本地存储的地址列表中。当这个列表足够长时

芯片所有内核将会池化(pool)它们的列表

将这些地址按临近排布的形式组合到一起

重新分配给内核

这样一来,每个内核都只请求了自己所需要的数据项,并且可以有效地进行检索。

这样描述的话层级较高,但实际上细节会复杂得多。事实上大部分现代计算机芯片都有多级缓存,且一级比一级大(但效率也因此更低)。Milk编译器不仅必须跟踪内存地址表,还要跟踪这些地址中存储的数据,而且它常常将这两者在各级缓存之间进行切换。它也必须决定哪些地址应当被保留(可能需要再次访问),哪些应当被丢弃。研究学者希望能够进一步提升这种编排复杂数据的算法,从而进一步提升性能表现。

「当下许多重要的应用都是数据密集型的,但不幸的是,内存和CPU之间的性能差距越来越大,这意味着当前的硬件还没有发挥出它们的全部潜力。」斯坦福大学计算机科学助理教授 Matei Zaharia 说,「Milk 通过优化常见编程架构中的内存访问来帮助解决这一差距。这项成果结合了内存控制器设计的详细知识和相关编译器的知识,能为当前的硬件实现良好的优化。」

本文转自d1net(转载)

时间: 2024-09-12 17:11:01

MIT最新发布编程语言Milk,加速大数据时代并行运算的相关文章

英国“尝鲜”大数据时代

"在洛杉矶,警方通过数据分析,预测12小时内哪个地区最有可能发生犯罪:在伦敦金融城,一位交易员认为,数学计算可成为发财'秘笈':在南美,天文学家尝试为整个宇宙进行分类记录--这些迥然不同的领域如今出现同一特征:数据量的大爆发." 这是英国广播公司品牌栏目<地平线>最新播出的纪录片<大数据时代>中的开篇一幕. 的确,无处不在的海量信息正改变着整个世界和我们的生活方式,一场大数据革命悄然来临.从政府.研究机构到企业,英国人已经行动起来"尝鲜"大数

大数据时代到来 多家厂商发布新产品

在本周O'Reilly举办的Strata大会上,除Talend之外其他一些软件厂商也在大数据方面发布了重要的战略,包括Calpont.Pentaho.DataStax.VMware以及Alpine Data Labs等. Calpont将大会作为了其高性能分析数据库InfiniDB发布的平台,该公司表示InfiniDB第三版是一个列式数据库平台,它集成了Amazon的EC2部署选项,并提供并行数据加载功能,以加速大数据存储的加载过程.这一产品将在4月份正式向用户发布. Pentaho和DataS

ofo最新智能锁技术和大数据平台亮相2017软博会

本文讲的是ofo最新智能锁技术和大数据平台亮相2017软博会[IT168 资讯]6月29日,由工业和信息化部.北京市人民政府共同主办的"第二十一届中国国际软件博览会"在北京展览馆盛大开幕.科技和时尚的ofo展台成为今年软博会一大看点. 以"软件定义世界,智能引领未来"为主题,今年软博会展出了大数据.人工智能.虚拟现实等新兴热点技术,以及安全可靠.制造业与互联网融合.软件创业创新等方面进展,同时,还展示了工信部.软件名城和重点地方省市一年来的取得的成果和政策举措. o

经开区:加速大数据产业发展应用

经开区智能化生产车间一角. 9月14日,在小孟工业园的贵州勤邦公司办公楼下,太食王婆安全平价生鲜便利店格外抢眼.这里的产品琳琅满目,价格与大型超市并无多大区别.特别之处在于,这里的蔬菜.水果和肉类都经过了专业的安全检测,人们可以通过食品的二维码"身份证"实现溯源. 这是经开区利用大数据服务民生的一个缩影.在以大数据为引领加快打造创新型中心城市中,经开区不断加速大数据产业发展应用,培育和壮大了区域的战略性新兴产业. 1 利用大数据服务民生 记者拿起便利店里一个农产品,用手机扫描产品上面的

华三发布FlexData数据库一体机 ”领跑大数据时代

ZDNet至顶网服务器频道 01月04日 新闻消息:12月26日,杭州华三通信技术有限公司在杭州举办了"融'慧'贯通--FlexData系列一体机"发布会,与上海引跑信息科技有限公司(INTPLE)携手进军高端数据库服务器市场.此款分布式数据库一体机,面向企业提供数据中心硬件设备与分布式数据库的深度融合和一体化交付,代表了当前分布式数据库一体机设备的最高水准,是大数据时代数据中心应用最理想的选择.这是华三在新IT基础架构领域的最新举措,也是华三新IT深价契合战略的再次落地. 云计算.大

大数据时代的云计算:迅雷云加速悄然布局

       据国外研究机构的数据显示,全球大数据市场将在未来五年内迎来高达26%的年复合增长率,即从今年的148.7亿美元增长到2018年的463.4亿美元.据预测,到2020年全球数据量将扩大50倍,大数据时代已经来临. 以往在拨号上网时代,想必通过网络看图片都是一种奢侈,之后随着宽带网络的普及,在网上下载一部高清电影已经轻而易举,但大数据时代的来临又给互联网行业带来了新的课题,能否妥善解决好数据传输问题成为关键,随之而来的便是云计算技术. 过去的十几年中,无论是点对点形式还是P2P多点共享

互联网大数据时代 云加速服务是刚需

本文讲的是<strong>互联网大数据时代 云加速服务是刚需,</strong>2013年中国互联网大会将于北京8月13日至15日举行.本届大会的主题是"共建良好生态环境,服务美好网络生活",具体话题涉及移动互联网.电子商务.互联网金融.大数据.云计算.物联网.IPv6.创新创业等多个领域,而大数据将成为大家关注的重点. 信息爆炸的移动互联网时代,移动应用的不停使用产生了大量信息. 比如用户行为的信息(包括对话,购买以及事件处理等)以及设备生成的数据(崩溃数据.

大数据时代 搜狗有望“加速超越”

继美英等国之后,2013年中国网络广告也有望超越电视广告,坐上头把交椅.艾瑞研究发布的报告显示,2012年度中国网络广告市场规模达到753.1亿,较上一年增长46.8%."2013年互联网广告总收入将有可能超过电视广告,成为最重要的广告投放渠道."艾瑞研究院院长曹军波指出,"电视广告的增长率每年是在15-20%,而互联网广告的增长率预计明年也会达到40%."网络广告的崛起也是全球大趋势,2013年将注定是网络广告年,占据网络广告三分之一江山的搜索引擎也将伴随着大数据

与大数据加速深度结合,电子竞技或将迎来“大数据时代”

不得不说,这些年来电子竞技永远是一个充满话题的领域,与几年前的备受争议不同,如今电竞随着玩家和观众规模的倍数增长,外界资本的大量流入,加之政府态度的软化,正逐渐向着越来越正规的方向发展.这其中包括电子竞技俱乐部的规范化.赛事数量增多.主办方组织水准提升.网络转播的专业化等方方面面.然而,从近一年多来的Dota2.LOL等主流电竞项目的大型赛事来看,似乎又多了一项正在慢慢步入正轨的生意. 在去年几次大赛的赛后采访中,不少战队都提到了团队中数据分析师的关键作用,这些分析师们的主要职责就是针对选手在游