人际图谱:Facebook的数据挖掘功臣

  建立与发展

  Facebook的人际图谱团队创立之初的任务是把用户个人信息中的纯文字描述转化成结构化数据。如果没有这样的数据,Facebook就无法实现广告受众定位,也不能帮助你找到高中好友。为了利用用户数据中的各种细节信息,Facebook的工程师们必须建立一个数据集,其中需要包含能够将不同用户之间建立联系的各种信息。工程师们的解决办法是利用维基百科上的现有数据。

  很多用户之间的关联信息无法直接和现有页面建立联系,借助维基百科上的各种条目,Facebook工程师们建立了“数百万个‘回退’页面”,然后手动去除重合和无效的页面。此外,工程师们还需要针对用户信息中的书名和电影名等信息进行手动调整。

  Facebook的人际图谱团队还利用了WordNet数据库等工具分析用户信息,配合用户兴趣数据集向用户推荐好友。比如,在简介中提及“有些朋友会滑雪”的用户会和那些在滑雪运动页面上点“赞”的用户归类到一起。

  

      人际图谱现状

  根据Facebook工程师埃里克·孙(EricSun)的说法,人际图谱如今的增长速度是他们始料未及的。他表示,该团队目前的主要任务是“打造能够不断优化图谱的多分支、可扩展系统”。

  目前,Facebook对用户信息的挖掘已经非常深入。比如,如果你对歌曲“Help”点了赞,Facebook知道创作它的是披头士乐队,它也知道你有哪些好友喜欢披头士。如果你去了某家餐馆,Facebook知道它的位置、用户群体、用户住处。帮助Facebook发掘出如此多的数据的正是人际图谱计划。


原文发布时间为:2013-07-30


时间: 2024-09-20 06:25:21

人际图谱:Facebook的数据挖掘功臣的相关文章

Facebook的数据挖掘 从谈情说爱开始

不论"大数据"概念是不是个陷阱,我们的时代,互联网巨头坐拥海量信息是无人可以否认的事实,社区产品和社交产品赖以生存的基础就是从用户那儿来的数据. 他们都是怎样八仙过海.各显神通让你感受到大数据的?比如,去年年终的时候,你肯定看到众多好友在微信朋友圈儿分享了一张"订制"的图片,在微信产品成长历程的时间轴中标注你加入的时点;你可能在登录豆瓣电台后,才发现通过一个特别的回忆通道,豆瓣已经帮你记录了一年来的音乐足迹,从哪天注册哪天听 第一首歌哪天听的很悲伤--无一遗漏;如果

谷歌与Facebook的数据挖掘之战

科技博客AllthingsD对谷歌与Facebook的关系数据业务进行了分析,并指出关系数据(Affinity data)业务将是未来互联网巨头的又一块大蛋糕.作者认为谷歌在诸多方面都有着Facebook无法比拟的优势.所以即使Facebook主导社交网络,但是谷歌会赢下关系数据之战.以下是文章主要内容: 每个月,用户在Facebook上点"赞"超过80亿次.他们在Twitter上更新发布超过10亿条信息,在亚马逊和Yelp网站上撰写写的数以百万计的产品评论.而每一个这样的举动,都在向

Facebook教你如何玩转大数据

不论"大数据"概念是不是个陷阱,我们的时代,互联网巨头坐拥海量信息是无人可以否认的事实,社区产品和社交产品赖以生存的基础就是从用户那儿来的数据. 他们都是怎样八仙过海.各显神通让你感受到大数据的?比如,去年年终的时候,你肯定看到众多好友在微信朋友圈儿分享了一张"订制"的图片,在微信产品成长历程的时间轴中标注你加入的时点:你可能在登录豆瓣电台后,才发现通过一个特别的回忆通道,豆瓣已经帮你记录了一年来的音乐足迹,从哪天注册哪天听第一首歌哪天听的很悲伤--无一遗漏:如果你

豆瓣:“慢公司”,互联网营销

每个人心中都有一个豆瓣. 对普罗大众来说,它是交流生活常识的百宝箱:对于阅读.音乐和影视的爱好者来说,它是汲取与分享的沙龙:对文艺青年来说,它甚至是点燃激情的网络圣地. 很多时候,用户心中的豆瓣既不是公司,也不像产品--因为从2005年创立到现在,豆瓣网一点也不像典型的中国互联网企业那样喧闹,似乎没热过也没冷过,发展得没快过也没慢过.就这样看似不温不火,却以缓慢而持续的速度不断发展,逐渐成为一家低调但强大的公司. 5年多的时间,豆瓣积攒了4500万活跃用户,虽比不上人人网.开心网的庞大用户数量,

港科大KDD 2017录用论文作者详解:基于异构信息网络元结构融合的推荐系统

在KDD 2017上,香港科技大学计算机系博士生赵欢作为第一作者的论文 Meta-Graph Based Recommendation Fusion over Heterogeneous Information Networks 被 research track接收并做口头报告.经雷锋网 AI 科技评论邀请,赵欢为雷锋网独家供稿,分享了团队此项研究的核心思想.算法框架及实验结果. 作者介绍 本文主要介绍 KDD 2017 的一篇有关推荐系统的论文:「Meta-Graph Based Recomm

人民日报的“大数据”

两篇人民日报与大数据相关的文章,共享之. (一)大数据时代人民日报社全媒体战略 ● 这是一个精彩的时代,是一个技术革命.颠覆式创新的时代!互联网不仅是技术.是媒体, 更是文化:不仅是器物.是产业,更是意识形态, 是国家软实力的重要体现. ● 主流媒体不挺"声"而出,发出权威信息,就不叫主流.主流是领跑,不是跟着跑.互联网时代,主流媒体就得做互联网上海量信息的挖掘机,偏激情绪的缓释剂,社会心态的压舱石. ● 正是因为有了"云"和"端",8小时工作制

周志华包揽 AI 相关领域会士“大满贯”,盘点 2016 AI 学术中国力量

2016 年 12 月 8 日,世界领先的计算机学会.全球最大的计算机领域专业性学术组织 Association for Computing Machinery(ACM)正式公布了 2016 年新当选的 ACM Fellow 名单.今年共有 53 名成员入选.ACM 将于明年 6 月 24 日,在美国旧金山举行的年度颁奖宴会上正式表彰 2016 年的 Fellow. ACM 主席 Vicki L. Hanson 表示,由于 ACM 成员近 10 万人,当选 ACM Fellow 也就意味着进入了

今日头条马维英:从结绳记事到超级智能,AI Era保持竞争力的5大优势

只有到了现场才能深切体会新智元的"AI春节"有多么火热,这不仅仅是说700多人的聚会让会场温暖到热,各位技术大牛轮番知识轰炸也让人的脑筋在高速运转下真的发起烫来. 一身优雅的衬衫和儒雅的台湾腔,今日头条马维英博士的登台瞬间为现场带来一股清流,脑汁被干货压榨也成为享受. 马维英博士是今日头条副总裁兼人工智能实验室主任.今年2月他离开微软加入今日头条的消息在业界引发了不小的震动.各方都在密切关注这位前微软亚洲研究院常务副院长在新岗位上的新动向. 马维英博士的研究领域包括机器学习.自然语言处

Facebook正式开放图谱搜索 隐私信息成隐患

网易科技讯 7月9日消息,据国外媒体报道,Facebook周一正式向所有用户开放图谱搜索功能.该搜索引擎将为Facebook海量数据提供最直接的查询功能. 公司创始人兼CEO马克·扎克伯格(Mark Zuckerberg)在数月前发布图谱搜索时曾就隐私方面的担忧表示:"每一个信息内容都有它自己的观众,大多数内容都不是开放的,你只被允许搜索对你共享的信息." 尽管扎克伯格作出这样的承诺,但作为用户,你还应该花些时间看看Facebook的隐私设置,以确保一些不希望被搜索到的信息不必要的被共