图为Digg重复文章检测系统 北京时间7月1日上午消息,据国外媒体报道,科技新闻聚合网站Digg周二对“重复文章检测系统”进行了升级,旨在避免同一篇文章被多次上传的尴尬。 自服务上线以来,Digg就面临着一大难题:同一篇文章被多次上传,这样会影响到这篇文章的受欢迎指数,因为用户往往订阅不同的文章链接。 为此,Digg周二对其“重复文章检测系统”进行了升级,Digg产品主管克里斯·霍华德(Chris Howard)称:“为更好了解问题本质,我们对重复文章类型进行了分析,发现大部分相同文章来自同一网站,但URL链接不同。现在我们找到了解决方案,利用类似于文档的算法来识别这些重复内容。” 但是,对于同一篇文章来自不同网站,且标题不同时,该解决方案似乎无能为力。对此,Digg称将通过扫描文章标题等描述信息来辨别相似内容。但到目前为止,这仍是一个“灰色区域”。(李明)
时间: 2025-01-18 12:42:38