1.团队介绍
本团队三名队员均为南京大学计算机系“大数据与">云计算技术”课题组(该课题组主要从事并行计算系统性能优化、大数据索引和查询技术、并行算法、以及云计算应用系统研究开发。)的研究生,因此我们将团队名称取为arch-nju。三名队员各有所长:韦永壮擅长算法设计和工程实现;张建擅长工程实现与界面设计;刘玉龙擅长算法设计且工作认真仔细。
2.作品介绍
本项目的主要工作和创新点如下:
l定义了一种联合度量网页重复关系和包含关系的方法;
l提出了一种称为CCDet的重复网页检测与聚类算法,该算法基于简明有效的“句号”特征提取新闻网页主题内容,并依据这些“句号”特征快速和准确地检测出具有重复关系和包含关系的网页,最后对这些网页进行聚类;
l设计并实现了一个用于检索中文新闻网页的分布式搜索引擎系统,称为Bingo。该系统将具有重复关系和包含关系的新闻网页进行聚类后再显示给用户,以提高用户满意度。我们的系统运行于节点可扩展的Hadoop分布式集群上,适合于处理大数据量的网页。
CCDet的简述如下:
1.提取网页“句号”特征;
2.计算每个“句号”特征的IDF值,把IDF值低于一定阈值的特征过滤掉;
3.统计每对网页之间相同的“句号”特征的个数;
4.计算每对网页之间的CCS值和CLR值,找出具有重复关系和包含关系的所有网页对;
将具有重复关系和包含关系的网页进行聚类。
Bingo首页设计
Bingo原型应用系统功能模块和处理流程
Bingo的索引设计与检索过程
(责任编辑:蒙遗善)
时间: 2024-10-26 05:59:54