资讯类新闻套图系统
江浩亮 左春
考虑到图片具有对事件诠释力强,传播便利的特点,研究了从大量数据密集的新闻Web页面中自动提取数据,并组织成套图结构展现给用户. 基于页面模板实现动态页面抽取和解析,处理转换为对应的套图数据结构. 基于余弦相关性对来自不同网站的新闻套图数据进行去重,并根据相应的标准,为数据集进行评分排序. 考虑巨大的新闻数据和用户数量,本系统基于hadoop分布式平台,满足系统的高可扩展性. 本文将详细描述我们的系统设计和实现,并公布在百度资讯图片栏目上的运行结果.
资讯类新闻套图系统
时间: 2024-10-11 08:34:23