arch-nju团队及作品介绍

1.团队介绍

本团队三名队员均为南京大学计算机系“大数据与">云计算技术”课题组(该课题组主要从事并行计算系统性能优化、大数据索引和查询技术、并行算法、以及云计算应用系统研究开发。)的研究生,因此我们将团队名称取为arch-nju。三名队员各有所长:韦永壮擅长算法设计和工程实现;张建擅长工程实现与界面设计;刘玉龙擅长算法设计且工作认真仔细。

2.作品介绍

本项目的主要工作和创新点如下:

l定义了一种联合度量网页重复关系和包含关系的方法;

l提出了一种称为CCDet的重复网页检测与聚类算法,该算法基于简明有效的“句号”特征提取新闻网页主题内容,并依据这些“句号”特征快速和准确地检测出具有重复关系和包含关系的网页,最后对这些网页进行聚类;

l设计并实现了一个用于检索中文新闻网页的分布式搜索引擎系统,称为Bingo。该系统将具有重复关系和包含关系的新闻网页进行聚类后再显示给用户,以提高用户满意度。我们的系统运行于节点可扩展的Hadoop分布式集群上,适合于处理大数据量的网页。

CCDet的简述如下:

1.提取网页“句号”特征;

2.计算每个“句号”特征的IDF值,把IDF值低于一定阈值的特征过滤掉;

3.统计每对网页之间相同的“句号”特征的个数;

4.计算每对网页之间的CCS值和CLR值,找出具有重复关系和包含关系的所有网页对;

将具有重复关系和包含关系的网页进行聚类。

Bingo首页设计

Bingo原型应用系统功能模块和处理流程

Bingo的索引设计与检索过程

(责任编辑:蒙遗善)

时间: 2024-10-26 05:59:54

arch-nju团队及作品介绍的相关文章

Fish团队及作品介绍

团队及成员介绍 团队名称:Fish 领队:陈孝旭 队员:陈孝旭 个人介绍:来自中国科学技术大学,计算机软件理论专业2010级硕士.崇尚简单的生活,想做一条自由自在的鱼.喜欢数据挖掘,喜欢云计算,目前正积极寻找与两者相关的工作. 作品介绍 依据对"http://www.aliyun.com/zixun/aggregation/12677.html">百度知道"中用户回答问题行为的观察,发现用户有三种渠道寻找问题并进行回答:(1)根据关键字搜索:(2)根据问题分类搜索:(3

SOTB团队及作品介绍

团队介绍: SOTB(http://www.aliyun.com/zixun/aggregation/29909.html">Special Operations Training Branch),百度百科特指为特种作战训练分部.本团队来自华南理工大学软件学院,目前主要开发android软件.所开发手机软件以创意为矛,技术为盾,不仅好用,而且实用.目前已开发有静鸡鸡报警器,乔巴推箱子等android应用. 团队共2名成员,分别是曹勇,张绍儒.均为未婚,适龄,质优,价廉的优秀男青年.团队平均

PDL@NUDT团队及作品介绍

团队介绍: PDL@NUDT来自国防科学技术大学(NUDT)计算机学院并行与分布处理国家重点实验室(PDL), 成员包括指导教师李慧霸,队员:张钊宁.李紫阳.刘兰峥.团队主要从事http://www.aliyun.com/zixun/aggregation/13423.html">云计算平台的研发,主要研究有分布式块设备系统SoftSAN,虚拟机集群管理平台CloudVirt,参赛作品VMThunder等.团队得到973项目"高效可信的虚拟计算环境基础研究"的支持. 作

EagleEye团队及作品介绍

团队介绍: EagleEye队是由南京大学计算机科学与技术系的两名研究生笪庆和陈虎组成,我们两人均来自机器学习与数据挖掘研究所.EagleEye名称来源于我们在早期使用hadoop实现的一个基于内容的图像搜索引擎的名字,后来就沿用的这个名字作为在各种场合组队的队名.我们对基于真实http://www.aliyun.com/zixun/aggregation/13584.html">海量数据的机器学习和数据挖掘尤其感兴趣,我们相信机器学习和数据挖掘的技术会对所有数据集中型的行业带来推动型的发

MultiMediaLab团队及作品介绍

团队介绍 大家好!我们是来自http://www.aliyun.com/zixun/aggregation/35729.html">四川大学计算机学院多媒体计算实验室的multimedialab团队."multimedialab"团队是一支富有朝气,充满智慧,善于创新,喜欢挑战自我的团队,主要研究关于多媒体计算,数据挖掘,语义分析等内容.这个队名很朴实,我们赋予了她深深的感情.Multimedia是我们的所研究的领域,是施展我们知识的海洋,也是莘莘学子刻苦钻研的方向.踏

校园特工队团队及作品介绍

团队介绍: 校园特工队是一支来自羊城名校-华南理工大学的队伍,团队由两名研究生,一名本科生和领队组成,组成于2012年5月份.校园特工队专注于移动互联网的开发和创新,勇于探索和实践,http://www.aliyun.com/zixun/aggregation/7380.html">团队成员激情,富有活力.经过了一年多的时间,校园特工队慢慢的成熟,取得了进步和发展.在未来的时间,校园特工队必将百尺竿头,更进一步! 成员:陈翔.林佳明.刘海伟.张龙光. 作品介绍: COCOM即时通信助理采用

SecOn云安全团队及作品介绍

团队介绍: 我们是来自杭州的一支创业小团队,有2名核心成员组成: 张磊 :专注于信息安全技术领域,曾在启明星辰主导多项银行/证券http://www.aliyun.com/zixun/aggregation/17612.html">行业网站安全测试和入侵取证分析项目,为四大银行提供安全防护技术支持. 张克顺 :精于Java开发,实践过多个ERP平台建设项目,善于快速解决开发过程中所面临的疑难问题. 作品介绍: SecOn是一个基于云端的网站安全防护平台,通过智能DNS解析技术.高速缓存节点

NullPointerException团队及作品介绍

1.团队介绍 我们是NullPointerException团队,2名成员均为研二,来自中国科学院计算http://www.aliyun.com/zixun/aggregation/11995.html">技术研究所前瞻中心,组里主要从事服务计算.分布式计算.大规模数据处理等方向的研究. 徐英钟,本科毕业于华中师范大学,曾在IBM中国研究院.MorganStanley实习,目前主要从事SQL至HiveQL转换,在线处理与任务流优化等方面的研究. 刘越,本科毕业于吉林大学,目前的研究兴趣集中

luluorta团队及作品介绍

luluorta团队介绍: 团队共有4个人,来自华中http://www.aliyun.com/zixun/aggregation/17810.html">科技大学服务计算技术与系统实验室,领队朱洪青,主要研究方向是个性化推荐,负责算法设计.队员陆路,主要研究方向是分布式数据处理,负责算法的设计和实现.队员曾林西,主要研究方向是hadoop的参数调优,负责算法实现.队员徐樾,主要研究方向是分布式文件系统元数据管理,负责算法实现. 作品介绍 第三题 你不知道我知道 我们在做这个题目的时候考虑