搜索服务中基于云计算的垃圾网页识别研究
李艳平 徐雅斌 陈俊伊
为了快速、有效地对垃圾网页进行识别,提出了一种基于云计算平台的垃圾网页识别方案.在Hadoop分布式平台下构建一个基于页面内容和连接结构的支持向量机分类器,对垃圾网页进行识别,通过对数据进行分析.结果表明:垃圾网页的识别准确率较高,处理时间随着集群节点数的增加而明显减少.
关键词 搜索服务;垃圾网页识别;支持向量机;云计算;Hadoop;MapReduce
搜索服务中基于云计算的垃圾网页识别研究
时间: 2024-12-24 08:49:10