美国总统大选已尘埃落定,一天之前所有报纸民调都说希拉里笃定当选,但结果却如大家所知。有趣的是,在大选前预言说中的却是人工智能,由印度开发的 MogIA AI 就成功预言特朗普当选。这证明了传统民调已经完全失效了,但大数据和人工智能是否又一定准确?
人人都想问:为何公投结果和民调预测完全不同?
其实早前的英国 6 月脱欧公投已经有这样的情况了。当时铺天盖地都是留欧的声势最强,传统机构民调、市场预测,就连博彩网站也是留欧的赔率较低,而在公布结果前由调查机构 YouGov 做的票站民调也是留欧占多。结果因为出乎预期,于是股市跌、汇价跌,人人都想问为何公投结果和民调预测完全不同。
当时很多人分析原因,有人认为脱欧派被标签为“年长、愚蠢、低学历”,没人愿意对民调承认自己的真实想法,也有人认为脱欧派大多不是网友,因此难以被发现,亦有人指脱欧派都是穷人居多,就算下注脱欧也改变不了赔率。
但不管原因为何,公投结果改变不了,英国政府动荡,卡麦隆下台,梅伊政府亦正研究如何启动脱欧程序。对梅伊政府而言,预测失准带来的损失非常大。正所谓“千金难买早知道”,成功预测未来结果就能及早准确,决定做或不做什么事。如果卡麦隆准确预先知道公投结果,又岂会愿意启动公投?
传统民调哪儿出错了?追不上时代!
爆冷成功脱欧,就有人预测会不会在美国大选也出现戏剧性结果,当时人人都是说“个别事件”,但结果是再一次爆冷,这一刻实在不能不问,传统民调哪儿出错了?事实上民调从来不儿戏,是社会统计学的专业范畴,透过公正客观的方式收集大量样本,再按比例投射到整个群体,是相对客观、精确地反映社会舆论的方式。
传统民调会用随机方式以电话访问民众,在访问前排除一些因素后再向被访者发问一组问题。不过今时今日愈来愈少人用室内电话,也愈来愈少人愿意花时间受访,回应率愈来愈低之余,加上愈来愈多人不乐意公开真实的想法(即使是匿名民调),自然更难像以前般控制样本的纯朴性。
2012 年奥巴马竞选连任时,民调就估计是对手罗姆尼胜出,但结果是奥巴马遥遥领先,近年全球大选都同样有民调失准的情况。先撇开别有用心想造假,又或缺乏资源“为做而做”的民调不论,现实是民调手法落后已追不上现在实际社会发展。因此不少人都提倡民调中心应发展其他新技术,以让民调能更符合现实发展,并提升准确性。
小众观点倾向沉默,但原来票数足以改变结果
最多人讨论的当然是社交媒体的大数据调查。在商业世界早已应用社交媒体大数据来协助掌握消费者的口味,例如香港的电视台就已经利用上述技术来了解新剧集、新节目的网上口碑,甚至隔日就能在黄金时间的娱乐新闻节目回应;而消费商品更会监视消费者对新商品的即时反应,甚至用于调整商品的市场对策。
不过,脱欧公投时何尝不是网上一片“留欧”之声?社交媒体大数据显然仍有一些难以跨越的界限。传播理论有所谓“沉默螺旋”:愈多人同意的内容,愈是比较放心公开说,反而抱持愈是小众观点的人就愈倾向沉默。由于社交媒体是公开的,自然愈有这种倾向,于是支持脱欧、支持特朗普的声音就隐藏了起来。
而且舆情能否跟选票真实挂勾是没有因果关系的,在网上大骂政府的人不见得是选友,更不见得会在大选日投票,如果直接把网上舆情和选情预测挂上等号,几乎一定出事。就以 2010 年香港的“五区补选”为例,当时网上就讨论得相当激烈,但实际其实只是一少部分人热闹而己,投票率仅为 17.1%,是回归以来最低。
另一个会被谈论的就是 Google Trend。比起众多杂乱的社交平台,几乎在中国以外的全球市场统一天下的 Google 是单一平台,拥有大量的搜索数据,做统计分析其实相对客观和误差较少。而前面提过的人工智能 MogIA AI 也同样是收集 Google、Facebook、Twitter 和 YouTube 的大量数据来做分析。
Google Trend 做的是呈现网友的搜索趋势,例如特朗普会和哪些字一齐被搜索、在什么时候开始多人搜索特朗普、哪些地区的网友搜索最多特朗普的信息,这些都能在 Google Trend 上得到答案。搜索趋势是很客观的,它能呈现一些社会议题被讨论的多寡,配合其他数据交叉分析能得到有价值的结果,而且也没有“沉默螺旋”的问题。
但问题是,谈论得多就是否等如能够胜出大选?中间有没有逻辑关系?其实这个谁也没有答案。2014 年世界杯比赛,当时中国百度就推出了类似的趋势网站,并利用中国网友的搜索趋势来预测赛果。但问题就来了,如果比赛实际影响因素是球员表现、天气和场地状态,那搜索趋势又代表什么?
不懂“读心”,网友意志未必真实呈现
不过大选跟球赛的最大不同,当然是大选是呈现选民的集体意志,网友的搜索趋势当然会对投票抉择有影响,而正面信息和反面信息的搜索趋势绝对值得参考,但要说 Google Trend 或其他基于这些数据来分析的选情预测的准确性够高,目前仍需要时间去验证。
事实上,就连每天都写科技消息的笔者,也对人工智能预言特朗普当选的结果有所保留。毕竟这其实是一个“赌大小”的游戏,选出独立候选人的机会比围骰还要低,如果不是特朗普就是希拉里的话,猜中的机率也不过是一半一半,实际就跟向八爪鱼保罗请教世界杯赛果一样。
据 Business Insider 的报导,印度公司 Genic.ai 所开发的 MogIA,自 2004 年就开始就预测美国总统大选结果,而其结果就 3 次皆中,如果再计这次特朗普的话就更是四届全中。为了进一步排除人为的偏见和误差,MogIA 会利用机器学习来建立演算法,经过 12 年的学习就更加完善。
但即使如此,人工智能也未能解决一些核心问题,例如特朗普得票最多的就是乡村地区,而最热爱科技的却是城市人。而且就连 Genic.ai 也承认,MogIA 对人类的“反讽”语言依然未尽了解,未必能够辨别出否定的言论,而热烈的互动率也绝不代表受欢迎。
传统学术非无能为力,往绩其实更佳
摇摆州份之所以难预测正在于人心的反覆,沉默选民的意向能否被正确收集和分析,目前仍要看他们有否积极在网络上表现,人工智能并非真的能“读心”,要证明大数据和人工智能可取代传统民调,还是需要时间做更多实证,不过随着社交媒体的使用者愈多,准确性能提高应该是必然的。
不过传统学术是否真的无能为力?似乎也不是。美国纽约州立大学石溪分校政治学教授 Helmut Norpoth,分析了自 1912 年起的历届大选并归纳出两个预测模型:初选模型和摇摆效益模型,而且就凭它成功预测了由 2000 年起的五届总统大选,而他更预测特朗普的胜率达 97%。
而美国政治史学家 Allan Lichtman 也透过归纳历届大选而在 1981 年提出“入主白宫的 13 个关键”,并成功预测其后三十多年的八届总统大选。这 13 道是非题其实是反映施政成效,得分愈低就会选输,而Allan Lichtman 就因此也同样断言特朗普将会胜出。
因此预测选情还是需要结合传统和新科技,传统的预测模型仍然经得起考验,配合大数据和人工智能将有更多的交叉求证的工具做预测,未来将会是多重工具做分析的时代。
本文转自d1net(转载)