社交媒体的大数据并不可靠？

如今，科学家们正越来越多的把目光转向社交媒体，以研究线上及线下的人类行为，例如预测夏季股票市场的大波动。一些数据处理专家指出，使用该种方法处理数据时，研究者们须警惕超大量社交媒体数据背后可能存在的严重缺陷。

错误的结果可能产生严重的影响：每年，都有上千的研究报告是基于社交媒体上收集而来的数据。麦吉尔大学计算科学学院助理教授Derek Ruths称“这些文章中有好些被用来通报和决断公众，行业及政府的投资决策”。

卡内基梅隆大学软件科学院的合作作者Jürgen Pfeffer则说，“并不是所有打上“大数据”标签的东西就都很好”，他指出许多研究者都有或是希望有如此的前提——即只要数据足够多，他们就能修正任何可能产生的偏差。“然而，行为学研究中的一句老话说的好：了解你的数据”。不过，社交媒体作为数据源之一吸引力实在惊人。“人们想要了解世界上正发生着什么，这无疑是快速的跟进办法。”以2013年的波士顿马拉松爆炸案为例，Pfeffer在两周内收集了两千五百万的相关tweets（推特）。“你能了解百万计人的行为——还都是免费的。”

数据过滤与SPAM

一篇发表在《科学》杂志上的评论中，Ruths和Pfeffer强调了可能导致社交媒体数据失真的若干因素，及它们的解决办法。

包括：

不同社交媒体平台吸引不同的受众——比如，Instagram对18~29岁间的成年人吸引力最大，包括非裔美国人，拉丁人，女性和城市居民，而在Pinterest上，占主导地位的则是那些家庭年收入超过0,000，25~34岁的女性用户。Ruths和Pfeffer指出，研究人员很少能够知晓，更谈不上正确对待这些内含的采样偏差。

社交媒体研究所使用的公开数据并不总能准确反映平台的总体状况——研究者们关于网站建立者如何过滤他们的数据源常常一头雾水。

社交媒体的设计通常会影响用户的行为，从而改变所测量的数据。比如，Facebook没有“不喜欢”的按钮，这就使得负面内容相比于正面的“喜欢”更难被侦查到。

大量SPAM（垃圾邮件发送者和机器人）通常在社交媒体上伪装成普通用户，也被错误地纳入了很多人类行为测算和预测。

研究者们还经常只报告来自于易于分类的用户，主题和事件所得出的结论，这就使得新的方法看起来更加准备。例如，在推知Twitter用户的政治取向时，只取得了65%的准确率——即使研究（侧重于政治活跃用户）声称有90%的准确度。

解决方法

Ruths和Pfeffer指出，以上很多问题都有显而易见的解决方法，这些方法被广泛地用在诸如流行病学，统计学和机械学等领域。

Ruths说，“这些问题的共同点就是，需要研究者们在分析社交媒体数据时，能更加敏锐地感知数据本身。”

社会学家应对此种挑战的技术和标准已经十分纯熟了。Ruths说，“1948年，臭名昭著的“杜威击败杜鲁门”报纸标题就来自于电话调查，它最终在采样上低估了杜鲁门的支持者。这并不是在抹黑民意调查，正是那次显而易见的错误导致了今天日益复杂的技术，更高的标准，以及更加准确的民调。如今，我们站在与当年类似的技术发展拐点上。通过解决面临的问题，我们才能实现基于社交媒体的研究所展现出的巨大潜力。”

原文发布时间为：2014年12月22日

本文来自合作伙伴至顶网，了解相关信息可以关注至顶网。

时间： 2024-09-18 17:14:58

社交媒体的大数据并不可靠？

社交媒体的大数据并不可靠？的相关文章

新纪元“爆发”，当社交媒体拥抱大数据

2013美国IPO市场:关注社交媒体、大数据及中国

回顾：社交软件成熟大数据带来就业机会

新浪微博找到方向了吗?在社交媒体的大海上漂流两年

传Facebook即将进行IPO 中国社交媒体股价大涨

盘点2010社交媒体十大事件：Myspace走上不归路

腾讯大社交战略：大数据和大营销

2013年社交媒体4大疑问：Twitter将继续增长

如何利用企业社交产生的大数据价值