社交媒体的大数据并不可靠?

如今,科学家们正越来越多的把目光转向社交媒体,以研究线上及线下的人类行为,例如预测夏季股票市场的大波动。一些数据处理专家指出,使用该种方法处理数据时,研究者们须警惕超大量社交媒体数据背后可能存在的严重缺陷。

错误的结果可能产生严重的影响:每年,都有上千的研究报告是基于社交媒体上收集而来的数据。麦吉尔大学计算科学学院助理教授Derek Ruths称“这些文章中有好些被用来通报和决断公众,行业及政府的投资决策”。

卡内基梅隆大学软件科学院的合作作者Jürgen Pfeffer则说,“并不是所有打上“大数据”标签的东西就都很好”,他指出许多研究者都有或是希望有如此的前提——即只要数据足够多,他们就能修正任何可能产生的偏差。“然而,行为学研究中的一句老话说的好:了解你的数据”。不过,社交媒体作为数据源之一吸引力实在惊人。“人们想要了解世界上正发生着什么,这无疑是快速的跟进办法。”以2013年的波士顿马拉松爆炸案为例,Pfeffer在两周内收集了两千五百万的相关tweets(推特)。“你能了解百万计人的行为——还都是免费的。”

数据过滤与SPAM

一篇发表在《科学》杂志上的评论中,Ruths和Pfeffer强调了可能导致社交媒体数据失真的若干因素,及它们的解决办法。

包括:

不同社交媒体平台吸引不同的受众——比如,Instagram对18~29岁间的成年人吸引力最大,包括非裔美国人,拉丁人,女性和城市居民,而在Pinterest上,占主导地位的则是那些家庭年收入超过0,000,25~34岁的女性用户。Ruths和Pfeffer指出,研究人员很少能够知晓,更谈不上正确对待这些内含的采样偏差。

社交媒体研究所使用的公开数据并不总能准确反映平台的总体状况——研究者们关于网站建立者如何过滤他们的数据源常常一头雾水。

社交媒体的设计通常会影响用户的行为,从而改变所测量的数据。比如,Facebook没有“不喜欢”的按钮,这就使得负面内容相比于正面的“喜欢”更难被侦查到。

大量SPAM(垃圾邮件发送者和机器人)通常在社交媒体上伪装成普通用户,也被错误地纳入了很多人类行为测算和预测。

研究者们还经常只报告来自于易于分类的用户,主题和事件所得出的结论,这就使得新的方法看起来更加准备。例如,在推知Twitter用户的政治取向时,只取得了65%的准确率——即使研究(侧重于政治活跃用户)声称有90%的准确度。

解决方法

Ruths和Pfeffer指出,以上很多问题都有显而易见的解决方法,这些方法被广泛地用在诸如流行病学,统计学和机械学等领域。

Ruths说,“这些问题的共同点就是,需要研究者们在分析社交媒体数据时,能更加敏锐地感知数据本身。”

社会学家应对此种挑战的技术和标准已经十分纯熟了。Ruths说,“1948年,臭名昭著的“杜威击败杜鲁门”报纸标题就来自于电话调查,它最终在采样上低估了杜鲁门的支持者。这并不是在抹黑民意调查,正是那次显而易见的错误导致了今天日益复杂的技术,更高的标准,以及更加准确的民调。如今,我们站在与当年类似的技术发展拐点上。通过解决面临的问题,我们才能实现基于社交媒体的研究所展现出的巨大潜力。”

原文发布时间为:2014年12月22日

本文来自合作伙伴至顶网,了解相关信息可以关注至顶网。

时间: 2024-09-18 17:14:58

社交媒体的大数据并不可靠?的相关文章

新纪元“爆发”,当社交媒体拥抱大数据

在传统互联网商业模式和盈利方式已经明晰,产业格局和巨头地位隐然确定的情况下,一场巨大的变革正在酝酿当中.正如工业革命中电气.钢铁和通讯技术相结合所带来的革命性变化一样,伴随着云计算和大数据.社交网络和移动互联网的结合,也将催生出新的商业模式和生活方式.正如海银资本创始合伙人王煜全预言,在这样的背景下,2012 年不是传言的世界末日,而将成为一个新的节点,是传统互联网世界和规则的终结,并终将引领2013年成为转折点,催动互联网新纪元" 爆发". 作为2012云世界大会"中关村大

2013美国IPO市场:关注社交媒体、大数据及中国

北京时间12月25日消息,国外媒体近日刊载文章,对2013年美国IPO市场作出了展望.文章指出,市场上可能并不存在社交媒体"泡沫",Twitter如果最终决定上市将对这种观点正确与否作出验证:今年上市的大数据公司未能成为市场上的大赢家,但市场对这种公司仍旧颇感兴趣:另外,唯品会 和多玩的成功上市可能会为2013年中国公司在美国IPO市场上的复苏铺平道路. 以下是这篇文章的全文: 在有些年份里,单单只是一桩IPO(首次公开招股)交易即可为其作出定义.按照规模.重要性或成功度等标准,一桩I

回顾:社交软件成熟大数据带来就业机会

本文讲的是回顾:社交软件成熟大数据带来就业机会,又到了一周回顾的时间,严寒再一次来袭,月初我们写了一篇关于在严寒下IT服务商的应对措施(详见<应对暴雪寒冬IT商做好准备了吗?>),那么在上周(11月5日~11月9日)在我们IT行业又发生了哪些大事儿呢?让我们一起梳理一下. 1.2015年大数据将带来440万个IT岗位 背景:Gartner 高级副总裁兼全球研究负责人Peter Sondergaard表示:"到2015年,大数据将为全球带来440万个IT岗位,其中190万个IT岗位在美

新浪微博找到方向了吗?在社交媒体的大海上漂流两年

经历2012年的迷茫和忐忑,新浪微博找到方向了吗?在社交媒体的大海上漂流两年,新浪离商业化的新大陆究竟还有多远? 2月20日,新浪在公布2012年第四季度财报时宣布了最新管理层任命决定,首席运营官(COO)杜红升任首席运营官兼联席总裁,同时任命许良杰为首席技术官(CTO)兼联席总裁. 这不是一次简单的高层管理调整,背后关联着新浪微博在2013年的生死大局.根据新浪的最新财报显示,2012年,新浪微博已经砸下1.6亿美元的投资,而2011年新浪已经烧掉1.1亿-1.2亿美元.如果再找不到可持续的商

传Facebook即将进行IPO 中国社交媒体股价大涨

--专访职业社交网站天际网CEO林廷翰 信息早报 天晴 在Facebook即将进行IPO 的消息传出后,中国社交媒体股价大涨.新浪股价上涨12.52%,世纪佳缘上涨11.41%,人人网股价更大涨近26.68%.社交网络正凭借其巨大的价值和影响力渗透到社会经济的各个领域. 国内目前最大的职业社交网站天际网CEO 林廷翰认为,Facebook 递交IPO申请,对垂直细分领域的社交网络将是更大的鼓舞.作为高端职业社交网站,天际网将在这个新兴领域占据重要一席.我与他的对话也从"Facebook 递交IP

盘点2010社交媒体十大事件:Myspace走上不归路

中介交易 SEO诊断 淘宝客 云主机 技术大厅 据国外媒体报道,2010年社交媒体经历了跌宕起伏的一年,既有估值暴涨,地理位置功能出现,也有Digg.Google Buzz以及Myspace的表现不佳.社交网站之王Facebook用户人数接近6亿.总之,过去一年对社交媒体行业而言是不平凡的一年,以下是2010年社交媒体10大事件: 1.社交媒体创业公司估值惊人 2010年6月中旬,社交游戏公司Zynga获得来自日本软银的1.47亿美元投资,最近的市值也超过了50亿美元.数周后,Facebook完

腾讯大社交战略:大数据和大营销

中介交易 SEO诊断 淘宝客 云主机 技术大厅 "社交媒体的广告现在还是一个没有挖掘的宝藏,这是非常值得我们思考的."在今年3月17日举行的2012"中国和世界:宏观经济和结构调整"经济峰会上,腾讯董事会主席兼CEO马化腾做了上述的发言. 2个月后的5月18日,腾讯宣布架构重组,将现有业务重新划分成企业发展事业群(CDG).互动娱乐事业群(IEG).移动互联网事业群(MIG).网络媒体事业群(OMG).社交网络事业群(SNG),技术工程事业群(TEG),并成立腾讯电

2013年社交媒体4大疑问:Twitter将继续增长

中介交易 SEO诊断 淘宝客 云主机 技术大厅 导语:<福布斯>杂志网络版周六刊文称,社交媒体的历史并不是很长.Facebook和Twitter的诞生不到10年,且直到最近5年才引起了主流用户的关注.而另一些热门社交媒体服务,例如Instagram.Tumblr和Quora的历史就更短. 社交媒体生态系统每一年都在改变,2013年也不例外.社交媒体公司将推出新的技术和功能,而用户可能会对这些新技术和新功能持多种态度,例如不满.兴奋或迷惑.这就是社交媒体的自然状态. 以下为2013年社交媒体市场

如何利用企业社交产生的大数据价值

2012年,微软.甲骨文.SAP.IBM在内的国际巨头通过收购布局企业社交市场,其中,微软就在去年6月收购了Yammer,而甲骨文也在去年连续三个月每月收购一家企业社交平台公司.8月,IBM宣布以每股46美元,总价13亿美元的价格,收购人力资源外包服务商Kenexa,以增强IBM在社交业务和人力资源产品和技术方面的竞争力.同月,Salesforce证实完成收购社交营销平台Buddy Media,而早在两个月前双方就已达成价值6.89亿美元的收购协议. 国内本土企业,除金蝶云之家外,还有北森tit