MIT用GPU处理可视化数据库,速度较CPU提升100倍

作为电子计算机系统中一个非常重要的协处理器,GPU从1990年代第一次出现以来,就一直在专职负责图形渲染和处理的相关工作。然而随着时间的推移,技术和需求的不断变化,GPU已经逐渐走出了这种定位。特别是近几年,凭借突出的并行运算能力和高性能的内存使用效率,GPU已经被广泛应用于高级实验室仿真和深度学习编程等诸多的需要高强度运算的非图形处理领域。

MIT计算机科学和人工智能实验室(CSAIL)的前任研究员Todd Mostak就将GPU应用在了数据库领域。他将传统数据库管理系统中的运算核心——CPU替换为GPU,研发出了一种全新的分析型数据库和一个基于地理位置可视化的数据管理平台,名为MapD。

据Todd
Mostak介绍,MapD一共有两大特点。一是运算速度快:MapD可以在1毫秒的时间内处理数以亿计的数据点(data
points),相比传统的数据库管理系统快了100倍。二是可视化:正如名称里“Map”(地图)所表达的,MapD可以实时地将所有处理过的数据点以地理信息图表的方式展现出来,例如在世界地图上标记出当前的Twitter话题活跃度(如下图所示,这里是MapD系统一个名为 Tweetmap
的实现样例)。

自从去年3月份发布第一个商用版本以来,MapD以GPU高速管理数据库的方式已被各行业的用户广泛接受,目前包括Verizon等美国电信巨头,以及媒体、财经和广告业的各大公司都是MapD的忠实用户。甚至在今年10月,专门为美国中央情报局(CIA)服务的风险投资公司In-Q-Tel也投资了MapD,宣称他们需要MapD为美国情报系统研发具有特定数据处理能力的版本。

Todd Mostak表示:“CIA掌握着大量的地理空间数据,他们需要对这些数据进行有效的组织、可视化以及实时查询。对于情报系统来说,这几乎是一种刚需。”

  将GPU作为真正的处理核心

一般来说,GPU是专为并行计算而设计的专用协处理器,通常其内部都集成了数千个高速运算核心,可以并行处理计算机屏幕上每个像素点的单独显色以渲染整个图像。并且,由于GPU通常都可以直接搭配高带宽存储器协同工作,因此通常都比使用一般RAM的CPU的运算速度快一个数量级。

目前,虽然一些数据库已经使用了GPU,但他们普遍存在一个重要的设计缺陷。Todd

Mostak表示:“目前大部分的数据库管理方案都是将数据库存储在CPU一侧,当接到用户的数据请求时,再将数据搬移到GPU一侧进行处理,然后再将处理结果移回CPU进行存储。也就是说,GPU并非真正的系统核心。这种机制决定了:即使你通过GPU加快了数据处理速度,但把处理结果搬回CPU的过程仍然浪费了太多时间。”

与此不同的是,Todd

Mostak将GPU作为了MapD系统的真正核心。MapD并没有像传统系统那样将数据全部存储在CPU一侧,而是利用高速缓存机制将尽量多的数据直接存储在多内核协同工作的GPU一侧,这样一来就避免了数据搬移过程中浪费的大量时间,大大提升了运算效率。

在MapD系统中,每个GPU都有自己的缓冲池,即利用高速缓存机制将最常访问的数据直接存储在GPU一侧,而不再是硬盘。这样一来,在数据库需要反复查询同一个数据点时(这种场景在实际应用中非常常见),MapD就可以直接从GPU一侧的高带宽存储器中直接访问数据,而不是从CPU或硬盘。

Todd Mostak表示,通过这种机制,MapD可以提供相比传统数据库管理系统快两到三个数量级的性能。

  强大的数据处理能力

MapD曾分析过一个被认为是大规模数据分析能力基准测试的庞大数据集合,即高达12亿条数据记录的纽约市出租车数据集。通过一家第三方测试机构的测试,MapD的运行速度比许多先进的CPU数据库管理系统快74倍,许多数据查询任务甚至能够在毫秒内完成。(如上图所示为纽约市出租车数据集合的分析截图)

在其他示例中,MapD的表现也同样出色。例如,通过“Tweetmap”,用户可以搜索所有Twitter上的热门话题,并查看这些话题在世界各地实时的地理位置分布。在另一幅美国地图中,用户还可以通过MapD查看2001年以来美国所有的政治捐款,并以不同颜色标明不同的政党(例如红色代表共和党,蓝色代表民主党)。

总体上说,不同行业的客户对MapD系统的具体需求也不同,但本质都是通过其高速的数据处理能力和基于地理位置的展示能力协助他们做出合理的商业决策。例如金融服务机构和对冲基金可以通过该系统来监控欺诈行为和做出投资决策;广告代理商们可以通过该系统来评估客户们对各种广告的不同反馈;
社交媒体公司则可以通过该系统追踪全球用户的使用情况。

美国电信巨头Verizon也是MapD的用户之一,他们每周都会利用MapD系统对8500万用户更换SIM卡的行为展开分析。此前在使用传统的数据库管理系统时,这种分析通常要耗费好几个小时,因为效率太低,因此只能好几个月分析一次。近期,Verizon就通过MapD系统的每周分析报告发现了一个隐藏多年的Bug,这一Bug导致每年有上百万次无意义的SIM卡更换,不但大大浪费了服务资源,更造成了用户的反感。

Todd Mostak说:“MapD这次可帮Verizon省了一大笔钱,但更重要的在于用户体验的提升,因为通常来说,频繁地更换SIM卡毕竟不是什么值得高兴的事。”

  从论文写作到MapD

研发MapD系统的最初想法来自于2012年,那时Todd Mostak正在哈佛大学写他的政治学硕士论文,过程中需要查询大量的历史资料。

使用以CPU作为处理核心的数据库系统做这些资料查询显然不是一件轻松愉快的工作。很多次,Todd
Mostak在睡觉之前敲入一个查询命令,结果第二天醒来发现系统提示参数输入错误,这种酸爽的用户体验简直让人崩溃。按照Todd
Mostak的原话来说就是:“那是一个令人沮丧的经历。”

恰好,当时Todd
Mostak选修了由MIT数据库研发组教授的CSAIL数据库课程。当时的授课教师有两位:一位是数据库领域的布道者Michael
Stonebraker,他是MIT计算机科学的兼职教授,创立了Postgres、Ingres和Vertica等诸多流行的数据库系统;另一位是Sam
Madden,他是MIT电气工程和计算机科学的教授,现在是MapD的特聘顾问。

为了加快论文进度,Todd
Mostak通过自己在CSAIL数据库课程中学到的知识,自己研发了一个简易的数据库系统,也就是MapD的早期雏形。这一系统当时令CSAIL数据库课程的导师们印象深刻,当然也大大加快了Todd
Mostak的论文进度。2013年,在论文最终顺利通过之后,导师们邀请Todd Mostak以研究员的身份加入CSAIL,进一步完善MapD。

在Sam
Madden导师的鼓励下,Todd Mostak开始在MIT的工业联络计划(ILP)中公开展示MapD。那时开始有公司找到Todd
Mostak,并表示愿意出高价购买他的研究成果。Todd
Mostak说:“当时,我对他们说这只是一个纯粹的学术研究项目。虽然并没有出售,但这件事开始让我思考一个更普遍的问题,即如何实时地从大数据中获取有效信息。”

2014年1月,Todd Mostak正式推出了MapD系统,并加入了ILP计划中的初创公司社区,在那里可以与其他众多MIT附属的初创公司建立联系或者合作,从那时开始Todd Mostak打算把MapD系统与地图结合起来,以可视化的方式展示信息。

此后,成立于马萨诸塞州剑桥的MapD开始逐渐步入正轨。2014年3月,MapD在Nvidia举办的一场初创公司大数据计算比赛中赢得了10万美元奖金(现在Nvidia已经成为了MapD的合作伙伴)。当年秋天,MapD又从Nvidia和Google那里获得了200万美元的种子轮融资,2015年又获得了1000万美元的A轮融资。

现在,MapD已经在旧金山新总部展开了新一轮的扩张。在越来越多的企业开始通过云端启用GPU编程的大趋势下,MapD希望在旧金山收获更多的客户。Todd Mostak表示:“我相信在旧金山我们能收获更多的用户,我甚至觉得MapD才刚刚成立。”

本文作者:恒亮

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-09-16 08:49:46

MIT用GPU处理可视化数据库,速度较CPU提升100倍的相关文章

再用Wi-Fi就过时了 Li-Fi的速度是它的100倍

荷兰爱因霍芬科技大学开发了新式Li-Fi系统,它用红外光传输数据,最快速度可以超过40Gbit/s. 用红外光线组建无线网络就可以提高网速,它的速度比现有系统快100倍. 最近,研究人员已经找到一种新方法,用中央"光天线"向无线设备发送波长不同的光线,如此一来,当不同的设备争夺网络信号时网络不会拥堵.我们管这种光系统叫作"Li-Fi",用这种技术传输更安全,研究人员指出,5年之内Li-Fi就会投入使用. 新系统是荷兰爱因霍芬科技大学(Eindhoven Univer

摩根大通服务器加入GPU速度提升40倍

新浪科技讯 北京时间8月5日下午消息,摩根大通与英伟达周四共同展示了在服务器中增加GPU的好处. 投资银行是最看重计算速度的行业之一,虽然这些企业以往都对如何提高服务器性能讳莫如深,但摩根大通本次却对外披露了一些信息. GPU又称图形处理器,以前主要被用于渲染游戏中的华丽图形.虽然英特尔和AMD出品的x86 CPU仍然占据主导,但GPU却更加擅长一些特殊的任务. 英伟达的GPU已经被整合到摩根大通的服务器中,其作用是充当x86处理器的加速器.这两家公司表示,通过这种方式,在执行某些任务时,峰值性

WPS Office抢鲜版V8.0发布 素材库速度提升5倍

日前,金山办公软件正式发布了WPS Office抢鲜版V8.0,该版本新品秉承了WPS Office 2012灵巧轻快.便捷安装,深度兼容微软Office的特点,可以轻松在时尚界面与经典界面之间一键切换.另外,WPS Office 抢鲜版V8.0对在线素材库进行了改进,使素材库的速度较之前提升5倍,同时段落布局的使用也更加方便,还支持页面颜色的更换,颜色.纹理.图案想怎么来就怎么来,让用户的办公操作更加简单轻松. 网友可登陆WPS官网(http://www.wps.cn/product/beta

阿里云宣布开放开源 AliSQL 数据库,性能可提升 70%

继开源跨平台开发框架 Weex 之后,阿里巴巴再次宣布另一个重大开源项目 AliSQL. 8 月 9 日,在 2016 云栖大会·北京峰会上,阿里云宣布启动 AliSQL 数据库开源项目.该版本性能优于社区版 MySQL 70% 左右,可帮助中小企业和开发者提升数据运营能力.阿里云方面表示欢迎大家共同参与开源项目,在使用的同时也贡献智慧,为数据库行业带来更多进步. AliSQL 是基于 MySQL 官方版本的一个分支,由阿里云数据库团队维护,目前也应用于阿里巴巴集团业务以及阿里云数据库服务.该版

韩国SK电信启动4G服务数据传输速度提升4倍

新浪科技讯 北京时间9月30日早间消息,韩国SK电信9月28日正式推出了基于LTE(长期演进)技术的4G移动网络服务.SK电信同时表示,今年将推出7款支持LTE的手机,以及一款支持LTE的平板电脑. SK电信表示,高清影像是LTE时代的核心竞争力.与3G智能手机相比,LTE智能手机的视频通话清晰度将提高7倍,而数据传输速度则将提升4倍以上. 为了部署速度更快的LTE网络,SK电信将从下月开始使网络带宽从5MHz提高到10MHz,增加一倍.SK电信一位人士在28日的发布会上表示,计划到今年底吸引5

数据库学习建议之提高数据库速度的十条建议_数据库其它

很多网站的重要信息都是保存在数据库中的,用户通过提交访问数据库来获取用户信息.如果数据库速度非常的快,有助于节省服务器的资源,在这篇文章中,我收集了十个优化数据库速度的技巧. 0. 小心设计数据库 第一个技巧也许看来理所当然,但事实上大部分数据库的问题都来自于设计不好的数据库结构. 譬如我曾经遇见过将客户端信息和支付信息储存在同一个数据库列中的例子.对于系统和用数据库的开发者来说,这很糟糕. 新建数据库时,应当将信息储存在不同的表里,采用标准的命名方式,并采用主键. 来源: http://www

【干掉英伟达?】DeepMind CEO哈萨比斯投资的AI芯片,性能超越GPU 100倍

被DeepMind联合创始人哈萨比斯投资的AI芯片公司 Graphcore,宣称自己的IPU芯片相比市场同类产品性能提升10~100倍,并且在训练和推理两方面都同样出色.现在他们发布初步的测试基准证实他们的宣言,对比GPU,在某些任务上IPU的性能提升甚至超过200倍. Graphcore 的 IPU(Intelligence Processing Unit,智能处理单元)是一种新的AI加速器,为当前和未来的机器学习工作负载带来了前所未有的性能水平.它的独特的大规模并行多任务计算.单个IPU或跨

老牌破解神器L0phtCrack强势回归 口令破解速度提升500倍

7年了,随着完全改版的第7版发布,Windows系统下老牌著名破解器L0phtCrack终于强势回归. 该口令破解器首次发布是在19年前,当时迅速风靡黑客圈,并导致微软不得不改变其处理口令安全的方式.但自2009年,在世界上第一个将安全与培训集中在一起的会议--波士顿Source大会上发布了第6版以来,该破解器再无新版本发布. 最新发布的第7版,采用可利用现代多核CPU和GPU(图形处理器)的全新破解引擎,将四核CPU的破解耗时急速缩短到不到前版的1/5.但是,装载 AMD Radeon Pro

阿里云宣布CDN服务支持HTTP/2 访问速度最高可提升68%

云计算.大数据.移动互联网等新兴技术的快速成熟促进了CDN技术与模式的创新.在杭州云栖大会上,阿里云宣布极速CDN 6.0服务正式支持HTTP/2,访问速度最高可提升68%.一次向企业提供淘宝级的网络分发能力的同时,又能满足安全,可靠,高性能的海量需求. 阿里云是国内第一家大规模支持HTTP/2的云服务提供商 作为国内前沿的云服务提供商,得益于在阿里巴巴集团的大量实践经验.2016年,淘宝网成为全球第一个采用HTTP/2的网站.在长时间大业务量下,阿里云CDN团队对HTTP/2进行了大量的验证,