1.3 计算机科学所起的作用
上述关于效用和福利估计的工作表明,机器学习和大数据处理技术可以帮助我们量化互联网经济系统。基于很多成熟的机器学习和数据挖掘理论,我们甚至可以更进一步探索互联网的经济性质。
基于大数据的无差异曲线自动估计和产品组合推荐研究,是迈向这一目标的一个重要尝试[3]。长期以来,经济学家一直使用无差异曲线(见图2)作为许多重要经济问题的研究工具,例如在消费者选择理论中用于分析消费者对产品组合的满意度,或者在Edgeworth分析中研究如何有效地在消费者之间进行有限资源的分配等。然而,传统的研究往往预设无差异曲线的数学形式,并基于小数据进行曲线参数估计。如何利用网络上的大规模非结构化消费者交易记录自动估计无差异曲线,并用来对互联网商品或服务之间的替代和互补关系进行研究,是互联网经济系统中的一个重要且基本的问题。
在这项研究中,通过采用在电子商务网站中收集的不同产品被同时购买的信息,将机器学习理论与经济学中的离散选择理论相结合,从而最大化消费者购买一个产品组合的总效用,并自动学习出任意一对产品的无差异曲线参数(见图3)。无差异曲线有助于分析现实世界产品之间的替代和互补关系,进而基于用户已有的购买记录为该用户推荐未来可能购买的产品。
为了更好地说服用户接受我们的推荐,从而使得算法给出的最优分配方案能在真实系统中更好地实现,我们提出了可解释性推荐模型[4-6],为被推荐的商品自动生成直观解释。同时为此开发了一个短语级情感分析工具包[7-8],可以自动从非结构化自由文本评论中,自动提取产品属性词和用户情感词,并构建“属性-情感”词对及情感极性标注。将其与多矩阵分解技术相结合,从而实现可解释性推荐。这一系列研究,显示了将机器学习、优化理论、自然语言处理等计算机研究的最新成果应用到互联网经济系统中的可行性。