3.24 总结与展望
对于基于分类 / 回归的流行度预测方法来说,尽管对于不同的用户生成内容流行度预测,特征的性能会稍有差别,但从整体上讲,用户生成内容传播过程中的时间特征和底层传播网络特征的预测性能优于用户生成内容自身的内容特征。已有研究仅关注挖掘对预测工作有效的特征,忽略了分析各类特征获取的难易程度。例如,对于预测性能较好的结构特征,其提取过程需要预先获得整个底层用户网络的信息。然而随着在线社会网络规模的逐渐增大和各类社交服务网站对数据的严格限制,底层用户网络的信息往往不容易获得。此外,某些结构特征的提取需要考虑网络的全局拓扑结构,其提取的代价相对较高 ( 如节点的 PageRank 值 )。因此,在这类方法的研究中,除了分析特征的有效性之外,还应对特征提取的难易程度加以分析,并在特征的有效性和难易程度间做出权衡。对于基于时间序列建模的流行度预测方法,对于不同的用户生成内容,其流行度变化模式存在差异,其流行度增长的机制也存在区别。因此,需要根据不同的应用场景,设计与之相适用的流行度预测模型。
通过以上分析,我们认为未来研究可以重点考虑以下二个方面。
(1) 挖掘消息转发过程中更多的有效特征。在消息转发过程中的涉及底层传播网络的结构特征和消息转发链中时间特征方面的研究仍不够全面。未来工作中可考虑对转发过程中涉及的用户以及消息的内容信息进行深入分析,探究网络的社区结构、消息内容与用户兴趣的相似程度,以及转发用户所处网络中的位置 ( 是否跨越结构洞 ) 等信息在流行度预测任务中的有效性。
(2) 基于时间序列建模的预测方法的扩展。未来工作中,可进一步在基于增强泊松过程的预测模型中,集成消息转发网络的结构信息和消息的内容信息。此外也可考虑在不同的社会网络平台上,对模型的有效性进行验证。
总的来说,随着社会媒体的蓬勃发展,以及线上用户的不断增长,在线社会网络的规模正在不断增大,而且网络上用户生成内容也在日益增多。因此,针对在线社会网络上信息传播过程的研究和应用前景将会更为广阔。