嘿,朋友,老夫掐指一算你就是“水军” | 论文访谈间 #13

不知多少人会像小编一样网购时需要绕过挡在头几条的层层水军,才能找到相对客观的评论,每当这个时候不免幻想如果机器能帮自己先筛一遍会是多么的方便。

仔细想来,这件事也不是那么难,假如我们可以获取评论者在历史操作中丰富的行为信息,依靠领域专家知识提取出有效特征就可以对评论的价值做出判断。然而没有历史记录的条件下这个问题会变得十分棘手。就像一幕话剧中,张三出场后一直在寻衅滋事,观众轻轻摇头——“一看就不是好东西”。如果这时李四出场了,那么问题来了,李四是好人么?……啊咧,李四还没做过什么呀,你问我我问谁? 

这便是垃圾评论检测中的冷启动问题,在新用户刚刚发布了一条评论时,传统方法很难获取足够量的信息,形成有效的特征,如此致使垃圾评论检测系统难以及时检测出新用户的评论。

中科院自动化所的王雪鹏同学、刘康老师、何世柱老师和赵军老师,在 ACL2017 上发表了一篇名为“Handling cold-start problem in review spam detection by jointly embedding texts and behaviors”的文章,针对这个未被前人探索过的问题,提出了一个基于图结构与卷积神经网络的模型,该模型通过对文本与行为信息联合编码来学习表示新用户的新评论。

实验结果显示本文所提出的模型能够有效地在冷启动状态下检测垃圾评论,并具有较好的领域适应性。该模型同样适用于无监督大规模数据学习。

▲ 图1:模型框架图

如图 1 所示,文中提出了基于图结构与卷积神经网络的模型来将文本信息与行为信息联合编码到评论的表示向量中,以在冷启动状态下检测垃圾评论。通过对评论系统的图结构进行建模,模型能够以一种无监督的方式记录现有用户的全局性行为足迹,从而进一步地捕捉到用户行为足迹中的潜在个人特性信息。

这种联合学习评论向量表示的方法能够有效地对用户的文本信息与行为信息之间的关联耦合性进行建模。当一个新用户发表了一条评论时,模型能够使用从大量已有评论中学习到文本信息(词向量)来表示这条评论,同时耦合关联在词向量中的行为信息也随之一起编码到了新评论的向量表示中去。最终,将新评论的表示向量输入到训练好的分类器中进行垃圾评论的检测。

▲ 图2:实验结果

实验部分通过如下几种特征及方法的组合在宾馆和餐厅的评论数据集上进行验证。其中 LF(linguistic features)代表传统评论文本特征,BF(behavioral features)代表传统用户行为特征,BF_EditSim 代表通过编辑距离计算后得到的相似评论的评论者的行为特征,BF_W2Vsim 代表通过计算评论(预训练)词向量平均值表示得到的相似评论的评论者行为特征,在文中另外定义了 RE(review embeddings),RRE(review’s rating embeddings)和 PRE(product’s average rating embeddings)等三种经训练得到的特征向量。

利用 SVM 对以上组合特征分别进行分类测试,文中所提出的模型在两个测试集上均表现不俗(图 2 中,1、2 行展示的是传统方法,3、4 行展示的是直觉方法,5、6 行展示的是本文联合学习方法)。 

冷启动问题是垃圾评论检测中的一项迫切而重要的任务,冷启动问题的解决能够及时而有效地减轻垃圾评论者对评论网站的攻击伤害。本文首次探索了冷启动问题,定性与定量地分析验证了传统文本特征与行为特征很难有效地在冷启动状态下检测垃圾评论,提出了一个基于图结构与卷积神经网络的模型,在冷启动状态下检测垃圾评论。

也许真的有一天技术成熟了,我们可以再也不用为满屏的垃圾评论感到苦恼了,想想真的还有点小激动呢。

来源:paperweekly

原文链接

时间: 2024-10-23 19:55:12

嘿,朋友,老夫掐指一算你就是“水军” | 论文访谈间 #13的相关文章

张国立不评价张默的演技:我说了不算(图)

张国立与儿子"保持距离" 张国立自导自演的亲情励志剧<养父>,开年登陆江苏卫视后,收视率一路领先.儿子张默参演的电影<让子弹飞>票房直逼6亿,父子俩成为媒体关注的热点人物.昨日,张国立神秘出现在成都置信·牧山丽景的别墅区,拍摄一部有着四川元素的神秘"大戏".接受华西都市报记者采访时,张国立开心地谈买房.谈新戏.谈爱心基金会.但对于"如何评价儿子张默在电影<让子弹飞>的演技",他却坚决谢绝. 拒评儿子张默演技 张

从setTimeout谈JavaScript运行机制

前言 最近在看些JavaScript异步的东西,但是由于时间有限,才刚看了个头,不得不中途停止.为了方便日后查阅以备重拾,遂记录一点体会,如果能使得他人有所收获,那更是极好的.其实本文与异步并没有太大关系. 从setTimeout说起 众所周知,JavaScript是单线程的编程,什么是单线程,就是说同一时间JavaScript只能执行一段代码,如果这段代码要执行很长时间,那么之后的代码只能尽情地等待它执行完才能有机会执行,不像人一样,人是多线程的,所以你可以一边观看某岛国动作片,一边尽情挥洒汗

详谈网站被降权到恢复的经验分享

大家好,我是淘气王子.记得在A5发最后一篇文章是4月份,掐指一算都有3个月没有发过文章了.今天很高兴能够又回来A5与大家分享一下最近笔者的一些建站.seo的经验.最近,有苦也有忧,苦的是百度的不淡定---收录.site异常,高兴的是谷歌的pr的大面积更新,经过笔者辛苦的优化,手头上的几个站点终于从百度的冷宫出来了.好了,回到本文的主题,我们都知道站点被降权有几个原因:就是站点长期没有进行内容更新,高质量的外链的导入.通过浏览一些其他的站长的降权的原因,在这里,也渐渐低明白了domain的命令的真

工作五年以上的UI设计师都在干什么?

  @EDC尤原庆 (华为首席设计师) 用户体验设计是一个相对新的行业,好处是行业新.发展快.年轻人机会多,坏处是职业发展道路不会足够有迹可循,有时需要自己去思考,去找路. 设计这行,做得越久,发现厉害的人越多,需要学习的地方越多,自己懂得太少,所以默默努力就好,哈哈哈哈 设计发展路线很多,各有精彩,我的简单发展路线是: 基本技能:学校上课.项目经验.实习. 找到兴趣:实习,去不同的地方实习. 正式职业:第一份工作,从菜鸟到初级设计师,配合团队做设计项目. 职业晋升:从初级设计师到高级设计师,主

大数据,小数据,哪道才是你的菜?

美国著名科技历史学家梅尔文•克兰兹伯格Melvin Kranzberg曾提出过大名鼎鼎的科技六定律其中第三条定律是这样的[1]"技术是总是配"套"而来的但这个"套"有大有小Technology comes in packages, big and small". 这个定律用在当下是非常应景的.因为我们正步入一个"大数据big data"时代但对于以往的"小数据small data"我们能做到"事了

意料之外,也是情理之中 - 我的自由职业之旅

掐指一算,我已经在自由职业的道路上行走一年多了,在过去的一年里,有辛酸,也有欢乐,有幸运,也有遗憾,但是没有后悔. 而我走上自由职业的道路,是意料之外,也是情理之中,只是这一天,来得比我想象中的快. 意料之外 2016年8月份,我离开了呆了两年多的公司,这份工作也是我毕业之后的第一份工作,从实习时 20 来个人到离开时近 200 人,离开的时候多少会有些不舍,只是,我没想到,会以这么一种方式离开. 是的,我健康出问题了. 其实早在半年多之前,我已经意识到问题的存在,那段时间每天早上起来,总是感觉

大数据!你能在色情行业里做什么!

      9月底,又有一档美剧要播出了,描写人类性解放的<性爱大师>.我掐指一算夜观天象,就知道这美剧在我国一定可以火起来,我甚至都能猜到这美剧最多的一条评论是什么内容,一定是"我裤子都脱了,你就让我看这个?" 其实只有我们这种经过正统的爱国主义初中政治教育和生理卫生自习课的屌丝群体,才会对"性"这个字眼如此敏感,以致于当年,同宿舍兄弟直接让我帮他借图书馆中所有带"性"字的书籍,宁可错杀一千,不可放过一个.嗯,最后我给他带回来一本&

15个新科技将在2017年大爆发,人工智能只是冰山一角

2016-12-08 来源:特赞Tezign 技术所带来的革命性体验,一直是未来社会发展的风向标.无人机.人工智能.大数据.VR\AR--好多词汇你已经听到耳朵起茧,但这些技术究竟还有哪些可能性,你也许并不知晓.著名设计咨询公司frog"掐指一算",预测了15个可能在2017年对世界产生持续影响的技术趋势.不紧跟这些技术趋势,或许很难让企业在消费者群体中持续领航.至于准不准,来年就知道啦! 耳朵怀孕了!音频交互技术登场  从20世纪80年代早期开始,人机交互主要是通过图形用户界面(GU

团购网站背后不为人知的黑幕

中介交易 SEO诊断 淘宝客 云主机 技术大厅 到315了,掐指一算,Groupon团购模式在中国的流行火爆差不多也一年时间了.我相信,在团购网机器式奇迹地制造着成千上百的互联网富豪的时候,也批量生产出了千千万万个"今天你团了吗"的"符号"--记忆里写满吃亏上当的符号. 本人曾就职于北京一家比较知名的团购网站,后因看不惯公司及商家的卑劣手段愤而辞职.今天,借着315的好天气跟半斤二锅头壮的胆气,也斗胆充次好汉,正义正义.逼上梁山,揭杆起义,落个是非功过的非议,也比看