探访Facebook大数据团队

文 晴然/搜狐IT驻硅谷记者

导语:造么,你的‘情感’被FB这么玩弄。

要不是几天前一篇学术报告引发的隐私风波,13亿Facebook用户中应该没几个知道,社交老大内部一直有个神神秘秘的‘数据科学团队’(Data Science Team)。

在2012年间,有整整70万用户在完全不知情的情况下,被Facebook进行了为期一周的情感测试。测试内容很好理解:Facebook在测试对象的页面上‘人为’地设置了一些正面或是负面的情感关键词,同时控制大家在自己的News Feed中阅读到的内容,之后收集不同用户在自身Post中的行为表达。长达一周的数据采集之后,大数据团队的成员可以借此观察到:外部信息会否对用户的情绪产生传染式影响。先给部分同学脑补一下,这场沸沸扬扬的风波是怎么回事儿。

最终答案是肯定的。

该研究的结果发表于两周前出版的美国《国家科学院学报》上。论文结论是:“Facebook上其他人的情绪表达会影响到我们自己的情绪,进而在社交网络上形成大规模的情绪传染”。

就着这个热乎劲儿,小编近日造访了Facebook的数据科学团队,一探究竟,这个听着颇为玄虚的Data Science Team到底是干什么的?

是酱紫,在Facebook有两类数据科学家,第一类的主要职责是:测试新产品- 他们会把不同的FB产品呈现于不同用户面前,看大家的反应。通过分析硬性数据,判断某某产品的表现怎么样?哪些方面做得很好可以进一步发扬?另有哪些是可以改进的方向?etc.

第二类数据科学家更为高大上一些:他们的工作和研究成果主要呈现于各种权威的学术期刊上。要知道,Facebook握有现今最庞大的社会学数据库。而大多数时候,社交老大也愿意跟各个高等学府共享自己的数据资源。今天大家看到的这场隐私风波也没有例外;这场‘情感测试’实际是由Facebook和美国康奈尔大学的几名学者共同设计和实施。论文发表了之后,Facebook根本没料到公众的反应会辣么大。

很多人不清楚的是,Facebook的数据科学团队其实自2007年就成立了,迄今已经发表了很多在专业届非常有影响力的论文,只不过先前普通老百姓没有特别关注。没有人想到自己会被FB当成小白鼠,作为学术实验对象。

这场‘情感测试’引发的风波,终于将Facebook的数据抓取方法引入了公众视野。之后的一段时间,我们会看到很多公开讨论,辩驳Facebook这么做在道义上是否站得住脚?相信也会给很多赖于大数据研究的学术领域带来深远的影响。

这场‘情感测试’涉及到70万FB用户。时至今日,这群‘小白鼠’依然不知道自己参与了这场测试。。。目前依然悬而未决的问题是,这些无辜的测试对象到底能不能得到某种‘通知’?由于所有的数据都被施以‘匿名化’处理,所以很可能连Facebook自己也无法将这些测试对象对号入座。我们只是知道,这些人是在FB上讲英语的用户,也包含未成年用户。毫无疑问,这是该风波的又一大争议点。

真正让公众愤怒的是,Facebook很可能有意识地‘操纵’了他们的情绪,让大家比往常更‘难过’或者‘沮丧’了一些,因为FB屏蔽了部分用户Newsfeed中的具有积极意义的帖子。

FB怎么回应的?

昨天,Facebook首席运营官桑德伯格在印度举行的媒体发布会上表示,这项研究跟外界的沟通存在问题,她为此感到抱歉。言外之意,她并不觉得这项研究本身存在任何问题,但是它在公众面前的呈现和描绘方式(比如,用到了‘操控’等敏感词汇)确实不太恰当,让人遗憾。

大数据团队的成员告诉我,Facebook对这场风波引发的争议非常重视,今后很可能会在内部推行一系列的改革方案,很可能会在为每项学术研究开展更为严格和规范的审查程序。

同时小编也了解到,这场风波不仅牵连到主角FB,很多跟FB有合作关系的高等学府也闹心上了。一位剑桥大学社会心理学的在读博士告诉我:“这些天,系里的整栋实验楼都在讨论FB的这篇论文和它引发的争议。我们的研究环境会不会因为这篇论文就此改变了呢?大家都在密切关注着。”

时间: 2024-10-31 15:30:27

探访Facebook大数据团队的相关文章

专访佰腾科技大数据团队,谈专利大数据领域的挑战与实践

11+大数据行业应用实践请见https://yq.aliyun.com/activity/156,同时这里还有流计算.机器学习.性能调优等技术实践.此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps:更多精彩内容参见大数据频道:https://yq.aliyun.com/big-data . 江苏佰腾科技有限公司成立于2006年,是一家专业从事知识产权服务的高科技服务企业,国内知名的知识产权服务机构

专访QQ大数据团队,谈分布式计算系统开发

NoSQL是笔者最早接触大数据领域的相关知识,因此在大家都在畅谈Hadoop.Spark时,笔者仍然保留着NoSQL博文的阅读习惯.在偶尔阅读一篇Redis博文过程中,笔者发现了 jacksu的个人博客,并在其中发现了大量的分布式系统操作经验,从而通过他的引荐了解了QQ成立之初后台3个基础团队之一的QQ运营组,这里我们一起走进. QQ大数据团队 CSDN:首先,请介绍一下您的团队? 聂晶:我们团队是社交网络事业群/社交网络运营部/数据中心/平台开发二组,前身是QQ成立之初后台3个基础团队之一的Q

传统行业如何快速搭建大数据团队?

在越来越多商城沦为"试衣间".电器卖场沦为"产品体验店".建材市场沦为"材料展示中心"的今天,越来越多的传统行业已经意识到他们需要变革,需要用大数据的手段来帮助他们突破重围. 大数据的起源要归功于互联网.电商.电信运营商.金融等行业,由于这些行业自身的特点,在生产运营过程中能够天然获取海量的数据,他们是大数据行业的先行者. 但可以断言,大数据更大的需求.有广泛的应用前景仍然在传统行业,大数据将会是传统行业适应互联网时代的最佳结合点. 著名服装品牌

当一个大数据团队加入存储公司之后会发生什么?

  近几年来,大数据技术在中国得到了很快的发展,并逐渐在各大企业落地.大数据解决方案的根基是大数据量,如何将这些数据有效地利用起来成为用户和厂商急需解决的一大课题. 罗忠富-现任柏科数据技术(深圳)股份有限公司大数据事业部首席架构师.曾任职于Teradata.当当网.Oracle.联通研究院,参与或主导过中国网通决策分析系统.中国移动集团经营分析系统.当当网数据仓库.宏源证券大数据平台.新华社大数据平台等多项重大项目.而其所在团队,也已经有将近十年BI.数据挖掘.大数据分析的经验与积累,拥有基于

打造顶级大数据团队的几个“偏方”

出人意料的是,音乐人才.物理学家和工商管理人士能为大数据团队带来全新的视角.   你的企业正在打造数据科学团队吗?首先,你应当从业务部门抽调专家来提出正确的问题.然后考虑招募一些物理学家.音乐人才,当然,还有统计人才和计算机科学家.   这些才是顶级大数据团队的关键"配方",至少管理咨询与技术顾问公司Booz Allen的战略创新部门副总裁乔什沙利文是这么认为的.沙利文的部门负责帮助客户开展数据分析项目,在这个过程中沙利文看到太多企业犯下相同的错误.   "大多数企业只知道招

Facebook大数据:每天处理逾25亿条内容和500TB数据

当地时间今日,http://www.aliyun.com/zixun/aggregation/1560.html">Facebook在加州总部向几位记者透露了一些关于"大数据"的统计数字,诸如Facebook系统每天要处理25亿条消息.500+ TB的数据.用户点击Like按钮的次数达到27亿次.上传3亿张照片.每半个小时扫描的数据大约为105TB.另外Facebook还首次透露了新项目"Project Prism"的有关细节. Facebook基础

Facebook大数据:兴奋与恐惧同行?

Facebook, 这个在世界范围内拥有1200亿用户的流行的社交网络,由于其拥有的巨量数据,已经成为一个大数据天堂.   我们这些Facebook的用户们愉快的喂养着这个大数据的野兽,每天发送100亿的Facebook消息.点击45亿次"赞".上传3.5亿新照片.整体而言,Facebook上有170亿地点标记,以及2500亿的照片,这个数量是惊人的!   所有这些信息都意味着,Facebook知道我们长什么样子,我们的朋友有哪些,我们关于大部分事物的观点如何,我们的生日是几号,我们是

探访硅谷大数据公司Pivotal Lab:工程师文化该如何被尊重

在1989年创立Pivotal Labs的时候,Rob Me自己也承认,这只是一家非常小的软件顾问公司,并没有什么特别与众不同的地方,主营业务就是与客户合作,帮助客户开发软件.   而在现在的硅谷,这家影响力巨大的软件开发初创公司已经得到了包括谷歌.推特等不少硅谷大佬的认可.即使在中国,著名的订票网站12306的背后也是Pivotal技术的支撑,两者的合作成就了世界上单点并发量最高的系统.尽管如此,Pivotal自己最大的认同感则来自于,改变协作方式,让工程师文化得到尊重.   当地时间5月5日

Facebook大数据释放的新机会

前几天,人们对Facebook将推出什么新产品多有猜测. 现在答案揭晓了. Facebook周二(1月15日)在门罗帕克总部召开新闻发布会,CEO马克·扎克伯格宣布推出Graph Search(图形搜索)工具. Graph Search 这是Facebook自2012年5月上市以来推出的最重要产品,它区别于普通搜索的突出特点是:这是一款与用户密切相关的搜索.它是Facebook对10亿名用户.2400亿张照片和1万亿次页面访问量作出的回应,这个工具旨在向用户提供有关人.照片.地方和兴趣(这也是与