walker

团队简介

本参赛团队队名为walker。其中队长为顾荣,队员分别为赵博、周文辉、杨书君,目前均为南京大学在读硕士研究生。我们来自南京大学计算机系“大数据与">云计算技术”课题组,该课题组主要从事大数据并行计算模型和框架、并行计算系统性能优化、大数据索引和查询技术、并行算法、以及大数据与云计算应用系统研究开发。

作品简介

技术类第一题——调色板搜图

算法思想简介:

本道题目主要考察大规模图像检索问题。我们的调色板搜图系统分为两个阶段:粗选和精选。

粗选阶段:

目标:从给定的100万张图片中筛选出最有可能在最终100张图片中的前K(K>=100)张图,过滤掉其他图片。

方法:缩略图匹配。具体如下:

1. 离线处理步骤,按一定比例对给定的100万张图片,生成缩略图。

2. 缩略图匹配步骤,找出与调色板最匹配的K张图片的缩略图,供下面精选使用。

精选阶段:

目标:从上阶段粗选得到的K张图中精确检索出与调色板最匹配的前100张图片。

方法:处理上一步选取出的K图片(原图),从中检索出与给定调色板最匹配的100张图片(按匹配度排序),检索匹配算法和题目给定的一致。

算法流程图:

图1. 调色板搜图赛题的算法流程图

技术类第二题——多快好省的速递员

算法思想简介:

本道题目考察的是大规模路径规划问题。我们的设计的系统分为路况信息预测和路径规划两个阶段:

路况信息预测:

这部分的工作包括生成地理位置信息以及对应的路况信息预测。这两个任务之间是相互独立的。生成地理位置信息比较简单,可以离线时计算得出。第二个任务是预测给定日期的各个时段的路况信息。为完成该目标,我们主要结合两方面信息,分别是历史路况数据和给定日期的部分真实路况信息。预测路况的算法采用的数据挖掘方面的聚类结合数值分析中的插值计算。

路径规划:

   这部分的工作是根据给定的投递任务优化投递路径选择。路径搜索阶段同样有两个任务:投递顺序选择,搜索相邻投递点间的最短路径。其中,投递顺序选择任务调用搜索相邻投递点间的最短路径任务。第二个任务是搜索具体两地点直接的通行路径,我们没有使用比较耗时的Dijkstra算法,而是使用了快速的A*算法。因此大大加快了路径搜索的速度。考虑到有些路段会当天临时关闭的情况,在尽量保证路径选择优化的情况下,我们在算法中对这些临时关闭的路段进行了选择性的避让。

上述的这些算法都是精心设计以基于MapReduce实现,充分利用了集群的计算能力。

算法流程图:

图1. 多快好省邮递员赛题的算法流程图

技术类第四题——难舍难分

算法思想简介:

本道题目是高维稀疏空间文本的分类问题,且在复赛实际测试中测试集含有一部分异类(未在训练集中出现过的类)。由于大量实践证实SVM针对高维空间数据较好,而且 分类器的速度较快OneClassSVM对于训练集中样本比例严重不平衡的问题有较好的分类效果,因此在我们使用了OneClassSVM+ 进行处理。训练阶段,对于多类(480类)问题,为了提高分类精度,我们针对每个类做了一个两类分类器;接着为了在预测阶段能较好地判别出异类,我们又将这480类训练样本看成同一类别的样本来训练处一个OneClassSVM模型。预测阶段,对于给定的待预测样本,我们首先用上面训练好的OneClassSVM判定其是否属于异类,如果属于异类则直接标为异类并结束预测,否则我们则分别用这480个分类器对待预测的样本进行类别相似度打分,最后选择打分最高的类别作为该样本的预测类别。为了提升训练和分类速度,上述所有算法都在MapReduce框架下实现。

算法流程图:

图1.基于MapReduce的480个两类分类器并行训练算法

图2. 基于MapReduce的以将480类样本看成同一类样本训练OneClassSVM的并行训练算法

图3. 基于MapReduce的并行预测算法

(责任编辑:吕光)

时间: 2024-12-31 17:56:03

walker的相关文章

戏如人生!《速度与激情》影星 Paul Walker 的演艺之路回顾

class="post_content" itemprop="articleBody"> 有人说,人生如戏,但其实是戏如人生.一场电影中或许人在里头可以死了几百回,但在现实生活中死了一回就无法再继续演出你的人生.相信大家应该已经得知知名男星 Paul Walker 死于车祸中,年仅四十岁的他,其实他的演艺之路才正要走到巅峰时刻,却因为一场无情的意外,让他的人生停留在这个使大家都相当怀念他的里程碑上-- 我们很难过,也很遗憾的失去这一位演员,或许大家都在网络上频

DW翻译系列:Dependency Walker处理的模块类型

文章网址:http://www.dependencywalker.com/help/html/dependency_types.htm 有以下几种模块依赖类型: 1. 隐式依赖(也叫加载时依赖,有时也不当地称为静态依赖):模块A在编译.链接期间隐式地与模块B中的a.lib链接,那么模块A的源码就调用了B中的一个或多个函数.模块B就是模块A的加载时依赖.不管A在运行期间有没有调用B中的函数,B都会被加载进内存.模块B将会被列在模块A的导入表中. 2. 延迟加载依赖:模块A在编译.链接期间延迟与模块

基于Ajax的应用程序架构汇总(2)

ajax|程序|架构 •例如 new XHConn().connect("mypage.php","POST","foo=bar&baz=qux",fnWhenDone); •开源许可.由Brad Fults所维护.3 服务器端:多种语言 3.1 跨平台异步的接口工具箱(5月2005年) CPAINT: http://cpaint.sourceforge.net/,是一真正的支持PHP和ASP/Vbscript的Ajax实现和JSRS(J

基于Ajax的应用程序架构汇总

浏览器端框架被划分成两大类: ·应用程序框架:提供浏览器的功能,但是常以包括窗口小部件抽象和另外的部件而出名,其功能主要围绕桌面GUI框架. ·基本结构框架:提供基本的管道和可移植的浏览器抽象,让开发者去创建内容.典型的功能: * 针对XMLHttpRequest的包装器以封装浏览器-服务器的交互.(所有的框架都提供这一功能). * XML操作和查询. * 根据来自XMLHttpRequest的应答执行DOM操作. * 在一些情况中,与另外的浏览器端技术如Flash(和潜在的Java apple

AJAX框架&简介

ajax|ajax框架 Ajax,使用它可以构建更为动态和响应更灵敏的Web应用程序.该方法的关键在于对浏览器端的JavaScript.DHTML和与服务器异步通信的组合.本文也演示了启用这种方法是多么简单:利用一个Ajax框架(指DWR)构造一个应用程序,它直接从浏览器与后端服务进行通信.如果使用得当,这种强大的力量可以使应用程序更加自然和响应灵敏,从而提升用户的浏览体验. 该应用程序中所使用的示例代码已打包为单独的WAR文件,可供下载. 简介 术语Ajax用来描述一组技术,它使浏览器可以为用

Ajax简介

ajax 作为J2EE开发人员,我们似乎经常关注"后端机制(backend mechanics)".我们通常会忘记,J2EE的主要成功之处在Web应用程序方面:许多原因使得人们喜欢利用Web开发应用程序,但主要还是因为其易于部署的特点允许站点以尽可能低的成本拥有上百万的用户.遗憾的是,在过去几年中,我们在后端投入了太多的时间,而在使我们的Web用户界面对用户自然和响应灵敏方面却投入不足. 本文介绍一种方法,Ajax,使用它可以构建更为动态和响应更灵敏的Web应用程序.该方法的关键在于对

如何用SQLyog来分析MySQL数据库

用SQLyog来分析MySQL数据库: SOLyog的下载.安装以及使用很简单.我去了相关网站下载,它只有384K字节大小.它把两个文件(一个可执行文件.exe和一个动态链接库文件.dll)安装到C:\Program Files\SQLyog路径下.然后运行可执行文件. 安装后没有必要再访问该网站了,我访问该网站是得到了一个消息,说它的域名没有设置(configured).登记.或正在建设中.我不清楚这个问题是暂时的还是一直是这样.该软件是免费的,并且没有标志广告(banner ads),所以它

AJAX介绍--上手篇

ajax From MoztwWiki本文章为 Mozilla Developer Center 的 javascript:void(0);">AJAX:Getting Started (http://developer.mozilla.o... 的翻译.原文的作者与编修历史可在它的历史页 (http://developer.mozilla.o... action=history)上看到. 这篇文章说明 javascript:void(0);">AJAX 相关技术的基础,并

第一届AJAX全球开发者大会开始

ajax AJAX是近一年来最「夯」的网页开发技术!我有订阅一些Java的news,不论是 JDJ(Java Developer's Journal) 或是 JavaWorld,几乎每期都有介绍AJAX的文章.我在这就不多解释什么是AJAX了,还不清楚的网友可以参考文章后面附上的参考连结. AJAX会让大家觉的很困难的原因是,它不像Java.PHP等-只是个「单一」的技术,它是一堆技术的综合体.你要能把AJAX运用自如,你至少要对HTML.CSS.JavaScript和XML这四种最基本的技术给