如何揪出论坛里的骂街党?维基百科和谷歌联合开发机器学习算法

最近,来自维基百科和谷歌的 IT 专家,公布了把 AI 用于“节制”维基百科用户评论的成果——找出哪些用户在搞人身攻击,还有他们为什么要在网上骂街。

针对该问题,研究人员开发机器学习算法,分析维基百科在 2015 年收到的的海量评论。这一年,维基百科讨论页面共收到 6300 万条评论。这些评论存在的本意,是讨论如何改进维基百科收录的各条文章。

这些算法使用 10 万条包含侮辱性言辞的评论以进行训练,当然,这样的样本规模只能算是偏小的。起初,十名人类员工对这些评论进行分类,以明确用户评论中都出现了哪些人身攻击语言方式。举个例子,该机器学习算法能区别直接人身攻击(比如“你是个XX”),第三方人身攻击(张三是个XX),以及间接人身攻击(“张三说李四是XX”)

研究成果以论文形式发表出来,题目为'Ex Machina: Personal Attacks Seen at Scale'(Ex Machina:大规模人身攻击)。雷锋网得到消息,该论文将在四月份澳大利亚珀斯举行的的世界互联网大会上展出。

34 名用户“贡献”了 9% 的网上谩骂

横坐标轴:总发帖数;竖轴:侮辱性言论比值;黑色:匿名用户;蓝色:注册用户

如上图,匿名用户发布人身攻击言论的概率,比注册用户高六倍。但发表最多侮辱性言论的,却是一小撮活跃注册用户。

该分析表明,维基百科 43% 的发表言论来自匿名用户。这些人中的绝大部分并不经常发帖,有的就只发过一次。但平均发表脏话概率比注册用户高六倍。但据雷锋网(公众号:雷锋网)了解,维基百科注册用户比匿名评论用户多 20 倍,意味着超过半数的人身攻击言论仍是注册用户发表的。

研究人员发现,大多数情况下用户言论是得体的。80% 的人身攻击来自于 9000 多名用户,而这一群体发侮辱性帖子的平均次数少于五次。意味着大多数人只在被激怒后,才开始在网上骂街。

但是,有一个包含 34 名活跃用户的小群体。研究人员对该群体的打分是“危害指数超过 20”。这 34 个人竟然贡献了维基百科全部侮辱性言论的近十分之一,准确来说,是 9%。

很明显,这些人就是网络世界里所谓的“骂街党”——那些喜欢上网和人骂战,把人身攻击作为日常宣泄、娱乐活动的人。现在的好消息是,新的机器学习算法使得维基百科在用户群中找出这些人变得更加容易,然后只需要把这几个人的账户封掉,就能一下子减少论坛上 9% 的恶意言论。太划算了,是不是?这意味着偶尔发表人身攻击言论的普通用户不必被封号——大多数只在和人吵起来之后才开骂。这还意味着,维基百科不需要像拉网一样把全部评论筛一遍,用机器学习检测侮辱性言辞,而只需把精力放在管理这些极少数的骂街党上。

论坛维护:人+AI

网上骂战,有时像野火一样被瞬时点着。正因如此,相比能自动决定该屏蔽哪个论坛用户的计算机程序,有时候人类管理员更有用。

论文作者们在结论中说道:

“这些结果说明,围绕着人身攻击行为的一系列问题并不好解决。但我们的研究证实,目前只有不到五分之一的人身攻击行为,会触发维基百科违规程序。”

未来,AI 大概会在网站评论管理中起到越来越大的作用。研究人员指出,能自动筛选评论的系统可发挥极大的辅助作用——人类管理员能更清晰地把握用户谈话的健康状况,并可以更快得发现“有毒”评论内容,在引发更多用户反感之前采取措施。

本文作者:三川

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-10-31 21:44:24

如何揪出论坛里的骂街党?维基百科和谷歌联合开发机器学习算法的相关文章

揪出潜伏在你手机里的“小偷软件”

中介交易 SEO诊断 淘宝客 云主机 技术大厅 "百度手机助手访问通话记录被安医生禁止" "百度地图访问通讯录被安医生禁止" "百度搜索访问微信记录被安医生禁止" 每天手机都不断的蹦出这样的系统提示信息,李小姐总是纳闷不晓得是百度想要做什么?从没有下过这些软件,为何不断蹦出,不断访问自己的隐私?直到看了今天的315晚会,才恍然大悟,原来自己被来自大唐的"神器"们偷袭了!!!!! 原来鼎开互联.大唐神器通过智能手机预装"

如何用大数据揪出一个骗子? | 深度

    有人从偏远的山村低价购买身份证,以每个身份证几百元的价格卖给下家: 黑客开发出自动化的程序和脚本,寻找.开发最先进的移动端模拟器: 在无数的打码平台上,想要赚外快的人们正在以每个一分钱的酬劳手动输入他们看到的图形验证码: 所有的"分工"都指向一个明确的目的:把某 O2O 或金融理财类 App 用来招揽新户的高额补贴瞬间"薅"光. 对于很多创业团队来说,新业务往往会在"薅羊毛"团伙的狂轰滥炸由于补贴支出过于庞大而被迫下线.然而这还远远不是全

为了揪出一个骗子 大数据也是“煞费苦心”

造假.黑客.攻击,这些我们在当今互联网时代都深恶痛绝的词汇在近几年随着大数据技术的不断发展和广泛应用已经治理的很多了.当今,很多创业团队都在很多业务层面上进行着创新,然而对于这些新业务的发展,有很多骗子和不法分子正是从网络安全.数据安全以及硬件产品攻击等很多地方对创业团队下手. 我们都知道,现在很多企业都应用了大数据和云计算技术,更是有越来越多的企业在利用这些新技术来保障自身内部的数据安全和网络安全,那么对于那些不法分子和骗子,大数据又该如何去进行防范,不给他们可乘之机呢? 大数据与骗子的博弈

直播狂欢背后,如何揪出“不按套路出牌”的主播和观众?

    在你对着美丽的女主播流口水时,偶尔会看到屏幕上冒出一条不和谐的弹幕,例如:"看艾薇:加XXXXX." 对于这种不健康的信息,你可能会感到非常愤怒,然后按照号码加一下... 这样的观众"福利",对于直播平台 CEO 来说却是不折不扣的灾难.每一个这样的弹幕,都把他向"快播王欣"的角色推进了一步.更何况时不时出现的"造人"直播,恨不能导致"有关部门"直接把直播平台干掉. "合规性"这

论坛里朋友们帮帮忙,我遇上麻烦了

问题描述 论坛里朋友们帮帮忙,我遇上麻烦了 个人在弄个web项目,可没想搭建spring框架时就冒出这么一堆问题来,自个弄两天了也每个头绪,无奈来着找大伙帮忙,spring版本是3.1.0的,以下是材料:控制台日志:严重: A child container failed during startjava.util.concurrent.ExecutionException: org.apache.catalina.LifecycleException: Failed to start comp

第一个 SyScan 360 女讲师揭密:如何揪出潜伏多年的可怕网络间谍——APT 攻击

   世界上最可怕的网络"间谍"恐怕要属"APT 攻击",潜伏数年.甚至数十年,默默偷取关键数据,它可能不为钱.不为利,但就是为了搞垮你. 听上去实在是又贱.又狠的一种黑客攻击. 赵雨婷,是第一个登上SyScan 360 安全会议演讲台的女讲师.她是360追日团队中的一员,面对 APT 攻击,这个团队希望像夸父追日一样,一直坚持不懈地进行追击. 关于 APT 攻击,赵雨婷揭示了一些关于它的秘密. 最近一起重要的 APT 攻击当属11月曝光的蔓灵花 APT 行动. 美

评论:张朝阳该不该骂“街”

张朝阳最近怒斥过一次华尔街.卖书人和读书人表达愤怒的方式不同.卖书人可能会口无遮拦地骂,而读书人由于文质彬彬碍着事儿,怒斥已经很严重了.依张博士一向的绅士风度来看,这已算是骂"街"了,只不过这个"街"是华尔街而不是大街. 事情的缘由是这样的:8月1日公开的搜狐2011年第二季财报显示,搜狐的总收入创了历史新高.但是华尔街似乎并没有看到这一点.于是,张朝阳在微博中怒斥道:华尔街暂时失明,把欣欣向荣.业务规模空前的搜狐市值打压得很低. 的确,拿新浪做个对比,搜狐确实很受

无间道风波始末 IT手段助CIO揪出“内鬼”[1]

在谍影重重的商业环境中,CIO还要担当钟馗,帮企业揪出"内鬼". 4月中旬的某个早上,大方公司CIO王旭到公司的第一件事,就是查看"http://www.aliyun.com/zixun/aggregation/11507.html">网络监督"的搜查结果,一个熟悉的名字再次落入他的眼中,与往常一样,公司人力资源部总监助理武超又给竞争对手国丽公司发出一封邮件,附件包括了大方公司最新的夏季促销计划书. 之后,王旭拿起电话,压低声音,向公司分管IT的常务

文化部严查动漫弹幕:吐槽没错,骂街“有罪”

两年前,弹幕还不像今天这么火的时候,就经常能在隔壁寝室中的典型二次元宅男同学的电脑上看到他在看带弹幕的动漫,偶尔看两眼还觉得这个功能挺有趣,但看多了眼晕.烦躁,又不能专心看内容,不过,我这位宅男同学却能津津有味的享受这种弹幕文化.唉,二次元的世界,你不懂. 从论坛到弹幕:评论文化的延伸 实际上,弹幕的起源应该追溯到论坛的评论文化.曾经网友只能在文字.图片等内容下方进行评论,而随着互联网技术的进步,现在却能在视频上直接评论互动.从论坛到弹幕,是互联网评论发展的一次重大跨越,原本的"静态"