【摘要】作为女性总统候选人,希拉里被支持者视作政坛女强人,然而在社交媒体上,频现针对希拉里性别的语言攻击。本期大数据与社会为您译制了华盛顿邮报对于该现象的语义情感分析。友情提示,我们的团队成员还附上了文末彩蛋,让我们一起围观大数据下的美国竞选。不过,政治归政治,社交媒体要注意文明用语哦。下期大数据与社会将为您辣嘴点评海外数据科学与互联网研究相关的研究生项目,敬请期待。
图片及原文来自华盛顿邮报
随着民主党总统初选,希拉里 • 克林顿和伯尼桑德斯之间的支持率越来越接近, 一些评论家认为,克林顿的竞选遭到性别歧视抨击的炮轰 — — 特别是来自桑德斯的支持者。
但基于最近推特数据的系统分析,我们发现,非常少量针对克林顿的攻击可以归咎于一般大众里的左翼或特别是桑德斯支持者。极少量提到克林顿的推特包含着恶意且公开的性别歧视与性别诋毁。
有不少观察者认为敌对和厌恶女人的风气已经在有些 #FeelTheBern 支持者中建立起来了— — 所谓的"伯尼兄弟 ” 例如记者琼沃尔什说,抱怨"情节恶劣"网上煽风点火,骚扰和性别歧视是来自于"伯尼键盘侠"。
另一方面,作者格兰•格林沃尔德声称,“伯尼兄弟”这个称呼是希拉里支持者们对桑德斯万能且便捷的抹黑方式,用来削弱针对希拉里合理的批评。他认为,桑德斯的支持者并非只有那些在网络上言行特别侮辱与歧视女性的人群,他指出桑德斯的死忠粉中也有大量的女性。
迄今为止,两边呈现出的情况都来源于一系列(不可否认,令人困扰的)趣闻轶事而非系统的分析。因此,我们基于推特,一个在性别歧视问题上臭名昭著的社交平台,来调查希拉里到底面临着多少敌意与性别歧视,以及在这样的言论攻击背后隐藏着什么样的群体。在新罕布什尔州初选期间,我们实时抽取了101,021条提及了希拉里或桑德斯或两者兼有的推特,并对他们的内容及发布者同时做了分析。
◆ ◆ ◆
我们如何分析文本数据?
我们分析的第一步是检验有哪些词汇种类和提到各个候选人的推特有关联。我们把出现频率超过50次的词汇作为自变量,推特@账号(如@HillaryClinton, @BernieSanders,或两者一起)作为因变量,代入一系列统计模型。我们检验了特定词汇的出现能否预测这个推特是关于哪个候选人。
实际上,我们已经知道推特内容是关于谁的,我们也没有那么关心这个预测的准确性,重要的是各个词汇的比重。比重越大,这个词汇和候选人的关联性便越高。
随后我们更加仔细地检验了100个密切关联两个候选人的词汇的使用语气。为了检测使用语气,我们编译了一写包含此类词汇的推特的随机样本。与其让一个词汇代表它原本的含义,我们把它放入原文、更精确地理解这个词汇的使用是正面,负面,亦或是中性的。举例来说,词语“email(电子邮件)”本身是中性的,但在提到@HillaryClinton的推特里,“email”关系到正在进行的关于希拉里作为国务卿使用私人服务器的审查,带有负面含义。结合模型提供的词汇比重,展现在我们眼前的是推特用户如何对待民主党候选人的复杂关系。
1.伯尼•桑德斯相关推文语义情感分析结果。从本图中可以看出,关于桑德斯的推文中,绝大多数词汇情感为中性或积极,少数情感偏负面消极。
2.希拉里•克林顿相关推文语义情感分析结果。而从这分可视化图表中可以看到,关于克林顿的推文只有少数偏积极情感,绝大多数词汇为中心或消极,而消极词汇中也偶现“撒谎(liars)”“输(lost)”等情绪更为激烈的负面词汇。
如以上二图所示,@HillaryClinton 的相关词汇比@BernieSanders 更加负面。@BernieSanders的相关词汇中只有9个是负面的,有40个是正面的。克林顿相关词汇只有8个是正面的,有53个是负面的。
然而,指向克林顿的负面词汇,如“Benghazi”(班加西,利比亚事件),“injustice(不公平)” “jail(监狱)” “emails(电子邮件)” 和 “unborn(未出生的)”,是和长期存在的右派言论相关的,且并没有来自左派的针对性特别批评。实际上,只有两个@HillaryClinton的关联词,“Goldman(高盛)”和“donors(捐赠人)”,与普遍存在的改革派怨言(特指克林顿和华尔街交好)有关。这两个词都处在前100高频词汇排名靠近最末的位置(分别是第97,98位)。
◆ ◆ ◆
我们如何寻找性别歧视相关的修辞?
在关于大众媒体中的女政治家的论文基础上,我们接着评价这些词汇中有多少带着性别化色彩。性别化词汇包括一些感情,家庭生活,政策领域,外貌等等,会常被认为更男性化或女性化(比如国防,军队,教育)。
如下图所示,只有12个@BernieSanders的关联词有性别化的意味。其中没有一个是负面的,同时4个正面词汇中有3个会提到Sanders在篮球场上的威力。
3. 伯尼•桑德斯相关推文性别词汇语义情感分析结果。桑德斯推文中和性别相关的用词绝大部分偏中性,也有相当比例语义情感呈积极正向,比如“退伍军人(veterans)”。
相反,在29个克林顿相关词中,13个带有负面含义,其中不少提到她丈夫。的确,大部分提到比尔•克林顿的推特会责怪希拉里•克林顿, 或指明她有顺从,她丈夫性关系上的不当行为。有趣的是,4个正面却带有性别化意味的词里有3个是典型的男性化。他们全都说克林顿正在为某事“搏斗”。
4. 希拉里•克林顿相关推文性别词汇语义情感分析结果。克林顿推文中与性别相关的词汇除了少数词汇情感为积极正向以外,其余多数偏中性和负面。尤其在负面词汇中,克林顿相关的推文中出现了“堕胎(abortion)”,“强奸犯(rapist)”等词汇。
大部分这个群体里的负面词汇和社会上厌恶女人的言论一致,其中有许多特别让人反感(比如“vagina(阴道)” “b*tch(婊子)”)。为了进一步理解这些相互作用,我们在所有提到@HillaryClinton的推特中搜索了30个普遍的性别化诋毁的词,例如“bimbo(蠢女人)” “slut(荡妇)” “whore(娼妓)” 和 “shrill(尖刻)”(其中很多过于粗俗就不提了)。然后我们编译了出现过这些中伤词汇的推特,检验这些侮辱是否特别针对希拉里•克林顿。
最终我们发现,30个性别诋毁中有23个在针对克林顿。然而,在一共52,181条提到@HillaryClinton的推特里包含了这些诋毁的,只有606条,也就是1.16%。尽管这些诽谤只是性别歧视中特别公开的一种,它们很少在推特里出现这一事实非常值得注意。
“伯尼兄弟”(译者注:网络用语,泛指伯尼•桑德斯的男性支持者,具有性别主义色彩)是这些谩骂的幕后推手吗?
其实这些谩骂者只是相当少的一部分人,但是任何这样的谩骂都令人烦恼。并且我们仍然需要知道谁应该对这些谩骂负责。
因此,在分析的最后阶段,我们通过编程探究每一条谩骂是否源自伯尼•桑德斯的支持者 (作者注:可以通过他们的推特账户信息或者所发微博的语义信息来决定),以及探究在那些可被证实的桑德斯的支持者中,推文发送者的性别是男,女还是无法确定。
5.针对希拉里克林顿推文中与性别相关的诋毁词。此图分析了针对希拉里克林顿具有性别歧视的诋毁词的来源统计,来源包括了桑德斯(民主党)的支持者、川普(共和党)的支持者及其他。其中诋毁词的来源绝大多数来自于川普的支持者,只有14.7%的诋毁词来自桑德斯的支持者。
绝大部分的谩骂来自于右派(译者注:指美国共和党)的推特用户,特别是那些自认为是特朗普支持者的用户。但是仍有14.7%来自于那些支持桑德斯的用户。在桑德斯的支持者中,发布有关性别谩骂的用户有60.6%是男性,有29.2%是女性,还有10.1%无法确定性别。绝大多数谩骂语言男性和女性都会使用,但是一些语句的使用群体似乎更为特定:在这个数据集中,“荡妇”这个词作为侮辱性语句,主要会被女性桑德斯支持者所使用。
6. 桑德斯支持者针对希拉里克林顿的性别诋毁词。该图分析了桑德斯支持者中对希拉里克林顿性别诋毁词的性别分布。 在发表类似词汇的桑德斯支持者中,有超过半数的用户为男性。而“娼妓(whore)”一词却主要来自桑德斯的女性支持者。
因此,尽管我们确实发现了一些“伯尼兄弟”恶劣行为的证据,但是桑德斯支持者对希拉里•克林顿的谩骂,不管是来自于男性还是来自于女性,看起来都相对有限。希拉里•克林顿确实在推特上面临着负面的言语攻击和严重的性别歧视,不过绝大多数的攻击似乎还是来自于右派。
此外,尽管任何有关性别歧视的谩骂都应该受到谴责,桑德斯的“键盘战士们”(译者注:网络用语,指那些专在网络表达愤怒等情绪的人)在新罕布什尔州初选中仅仅发布了89条与之相关的微博。在我们这次研究中,这只占了所有提到希拉里•克林顿的微博的0.17%。
那些分析并不意味着桑德斯的支持者可以免于性别歧视的职责。我们并没有捕捉到全部形式的网络性别歧视,而是只捕捉到了那些最恶劣和公然的性别歧视。而且我们也没有研究对女性希拉里支持者的谩骂,而只是研究了有关对希拉里本人的谩骂。
然而,对于网络上对希拉里攻击的程度和特点,我们的分析的确提供了一个更好的理解。此外,看起来只有相对极小比例的谩骂是来自于左派的(译者注:指美国民主党)。桑德斯也被右派全面攻击,却几乎没有在推特上受到负面关注的这样一个事实,也与性别歧视相符合。研究表明,与男性相比,所有的女性,不只是女政治家,不只是希拉里本人,都更可能面临网络上的攻击和谩骂。
注:Rebekah Tromble是Leiden University政治科学中心的助理教授。Dirk Hovy是University of Copenhagen定量社会语言学的博士后研究员。
【彩蛋】
除了此篇报到以外,大数据文摘与社会专栏特别对比了两位民主党候选人,桑德斯和克林顿在谷歌搜索中的支持率,谷歌趋势(google trend)统计了用户在谷歌搜索引擎搜索某一关键词的数量。我们分析了过去12个月以来两位民主党候选人在美国地区的搜索热度趋势变化图。
桑德斯和希拉里的搜索热度变化趋势图,蓝色折线代表桑德斯的搜索热度,红色折线代表克林顿搜索热度。可以看出,在美国网民中,尽管在2015年4月左右,克林顿的搜索热度远高于桑德斯,然而此后桑德斯的搜索热度不断提高,并逐渐超越克林顿,截止今日,桑德斯的搜索热度已高于克林顿。谷歌搜索热度是否真的能够体现美国选民线下的投票意愿呢?让我们拭目以待。
咦,团队一不小心加了“人见人不爱,花见花就败”的川普同学,居然搜索热度远超两位民主党候选人。恩,那么谷歌搜索热度是否真的能够体现美国选民线下的投票意愿呢?让我们拭目以待……
原文发布时间为:2016-03-15