你拥有了一个大的令你震惊的数据集

当你手中握有10亿用户外加他们几万亿的位置、物品、特征以及社交关系的资料时,你会发现你拥有了一个大的令你震惊的数据集。所以在上个月推出图谱搜索时,Facebook强调他们将利用关键词搜索模式。

图谱搜索被Facebook定义为一个面向对象的搜索工具。在它上面,每个人、每个地点、每个物品都是一个有着上百甚至上千个属性的节点,这些节点彼此之间可以相互连接。

现在,你可以在图谱搜索上进行简单的询问来找到那些住在特定地方或者有着特定爱好的朋友。不过至今为止图谱搜索也仅仅只问世了5个星期,它的功能还非常的有限,照Facebook的话说,图谱搜索的完整功能现在只实现了1%。

所以,图谱搜索下一步要实现的功能才是现在人们最关心的。当然,这些功能也会更复杂、更有用。

让我们从计算机科学的角度来认识这件事情。Edge标示符,也就是那些能显示你或者其他节点将连接到哪里的属性,比如你的朋友、住在丹佛的人、喜欢贾斯汀·比伯的人等,其实它们仅仅是数字而已,每一个属性都会得到一个独有的数字(数字范围从1字节到19字节之间)。正是因为这样,所以我们才能只需在图谱搜索上稍加操作,就能搜索到住在丹佛并喜欢贾斯汀·比伯的朋友。如果你读过Lars Rasmussen在how Graph Search works上发表的Facebook工程博客,你就会知道这是Unicorn这项所有Facebook搜索都会用到的技术的核心部分。

这种一种很简洁的搜索模式。它只会向你展示已经与你建立了连接的搜索结果。它根据常见的属性来锁定搜索范围,例如喜欢什么、在哪工作、认识谁等。这就像你拿着一个金属探测器在一大堆干草里找你想要的那根针一样简单。

“但是真正拉风的是我们能帮助用户找到一堆新的干草,”Facebook工程师Mike Curtiss在加州帕拉阿图的Facebook总部表示,“允许用户搜索那些还没与他们建立连接的东西。”

Mike Curtiss希望图谱搜索能实现什么功能呢?举例来说,如果你是一个准备申请大学的高三学生,那么你可以通过图谱搜索找到那些已经去了哈佛念书的人来给你一些关于申请哈佛的有用建议。如果你是一个HR,那你可以通过图谱搜索发现在你的求职者当中有哪些人曾举止不端。如果住在丹佛的你想品尝一次地道的俄式美食,那么图谱搜索可以告诉你在丹佛有哪些出生地设定为莫斯科的人喜欢的俄式餐厅。

“我们的搜索最终可以回答几乎所有的问题,是的,所有问题!”Curtiss说。“不过目前来说我们还无法做到这一点,因为各种各样的限制。但是理论上来说没什么能阻止我们最终实现这个目标。”

“目前最大的问题在于答案集的规模会呈指数级的上升。如果一个节点连接了100个其他的节点,那么你会有10000个出口节点。在下一轮的搜索中你就会有100万个出口节点。这是一个名符其实的指数级问题,它的难度大的难以估计,不可能说你加多几台设备就能解决它。

在Facebook找到能使硬件完美压缩几十亿节点的方法之前,Facebook使用社交排名算法来决定哪些搜索结果最相关或者最有趣。这种算法有点像Unicorn、应用运算符以及EdgeRank的结合。“这就像我们为每一个用户都提供了一个定制的搜索引擎一样,”Curtiss说。

当Facebook将所有的Open Graph数据都整合到一起后,那么这些节点包含的内容就远远不止你喜欢去哪些网站了,它还将包括你近期买了什么东西、你评论过的网页甚至你的网络游戏得分。整个计算的过程将会更复杂,而图谱搜索也会变的更聪明。

现在,图谱搜索依然是一个处于成长期的产品,仅仅被几十万以英语母语的用户所使用。与它的最终状态相比,我们可以说现在Facebook上的图谱搜索还仅仅是一个婴儿。

时间: 2024-07-29 17:23:09

你拥有了一个大的令你震惊的数据集的相关文章

Linux 中如何打开一个大文本文件

在"大数据"时代,我们会经常遇到有大文本文件(上 GB 或更大)的情况.假设需要我们手工的搜索和编辑这些大文件,或者为了解决一些特定的问题而需要手工分析多个上 GB 的日志文件.传统的文本编辑软件对处理这样的大文件不太有效,当我们试图打开一个大文件时会经常由于内存不足而郁闷的不行. 如果你是一个精明的系统管理员,你也许会用 cat.tail.grep.sed.awk 等这些命令的组合来打开和编辑一个文本文件.在这篇教程里,我将会谈论关于如何在 Linux 中打开(并编辑)一个大文本文件

电视台成阿里云下一个大数据重塑目标

本文讲的是电视台成阿里云下一个大数据重塑目标[IT168专稿]继空调之后,电视台成为阿里云计算的下一个大数据重塑目标.3月20日下午,阿里云宣布联手新奥特.华通云数据,打造中国最大的全媒体云计算平台.该平台可以在一周内,帮助传统电视台变成多屏网络电视台,支持电脑网站.手机APP.电视机全终端流畅播放,且可以实现大数据的收集整理和运营.今年内,全国两百家电视台将接入该云计算平台. 阿里云是中国唯一可以将5000台计算机合成一台"超级计算机"的云计算平台,将为全国广播电视媒体提供超级计算.

公司相当于一个大社区,老板就是版主

公关公司的成员因为受教育程度较高而拥有比较深厚的文化背景和极强的个性化价值观,导致彼此之间文化的认同感不足,对待事情的看法和角度往往很不一致,对待工作无法达成共识的现象较其他行业突出,因此http://www.aliyun.com/zixun/aggregation/17529.html">公关公司成员之间往往更容易发生冲突和陷入僵局. 面对这样的问题时公关公司往往采取的方式并不是积极采取内部公关,以调和员工内部的关系,而是对关键性岗位任用老板信任或嫡系人员的长期雇用,而不管"此

大数据服务商Splunk将是IT界的下一个大事件

北京时间12月24日,当地时间21日,托皮卡资本市场(Topeka Capital Markets)的分析师布赖恩·怀特(Brian White)给予软件公司Splunk股票"买入"的评级.怀特将Splunk的目标股价定在每股38.25美元. 在怀特看来,Splunk是"一家侧重于将最普遍的"Machine Data"转化成有价值的即时事件分析的新兴软件平台供应商".怀特认为,这是一种朝向"大数据"趋势发展的.令人兴奋的平台.

震网蠕虫中的一个Bug差点令其“出师未捷身先死”

本文讲的是震网蠕虫中的一个Bug差点令其"出师未捷身先死",由于内部代码中存在一个Bug,使其可以感染古老的Windows系统.超级蠕虫病毒震网(Stuxnet)差一点暴露,从而无法完成破坏. 业内众所周知,该病毒可以隐秘地破坏控制离心机的计算机系统.它由美国和以色列的神秘黑客所设计,被用于破坏位于伊朗那达兹郡的铀浓缩设施.该病毒导致伊朗的浓缩铀项目推迟了两年之久,但由于其自身的代码缺陷,震网差点未能发挥作用. 为了完成行动目标,Stuxnet必须保证自己无法被伊朗人检测到.不幸的是,

扎克伯格:下一个大趋势是小群体内分享

本文是<连线>杂志最新对Facebook CEO 马克·扎克伯格的采访.由搜狐IT翻译.从这份问答里,可以看到扎克伯格对移动战略独特的思考切入点,对(新一代)社交的理解,还有如何看待财富:是什么触发你想做Facebook Home的念头?马克:在移动端,Facebook的地位很有意思.因为,我们既不是操作系统,也不仅是App.据统计,目前,Facebook占据智能手机用户消费时间的23%, Instagram和Google Maps位列第二,各占3%.在过去的18个月里,我们努力提供移动版Fa

魔法师与麻瓜,只隔一个大数据的距离

魔法师与麻瓜,只隔一个大数据的距离 "大数据",一个风靡全球的热词. 在中国,"大数据"的背后,除了技术手段和行业的崛起,与其他诸多被热炒的概念一样,泡沫感十足.对此,电子科技大学大数据研究中心主任周涛在接受时代周报记者采访时形象地举例说:"现在,任何一个能够打开excel表格的公司,都号称自己是一家大数据企业." 到底什么是大数据企业?一千个读者有一千个哈姆雷特. 在周涛的新书<为数据而生:大数据创新实践>中,也没有给出具体的定义.

寻找下一个大疆

AI眼下无疑引起了全社会普遍关注,但实际上不管是投入的资金还是对生活的影响程度AI整体很可能都不如滴滴一家(5月份新闻报道滴滴融了55亿美元).那在这样一个承前启后的转折点上,到底那些时间窗口已经关闭,又有那些机会窗口正在打开呢? 技术创业可以不做了 眼下经常被提到的AI创业公司,视觉上最典型的是商汤.语音上则是声智科技.这类创业公司典型的特征是核心团队即是相关领域的专家,或来自高校.或来自科研机构. 这类创业相对门槛比较高,本来就很难出现200家直播,200家自行车那样的壮观场面,一旦第一波的

当一个大数据团队加入存储公司之后会发生什么?

  近几年来,大数据技术在中国得到了很快的发展,并逐渐在各大企业落地.大数据解决方案的根基是大数据量,如何将这些数据有效地利用起来成为用户和厂商急需解决的一大课题. 罗忠富-现任柏科数据技术(深圳)股份有限公司大数据事业部首席架构师.曾任职于Teradata.当当网.Oracle.联通研究院,参与或主导过中国网通决策分析系统.中国移动集团经营分析系统.当当网数据仓库.宏源证券大数据平台.新华社大数据平台等多项重大项目.而其所在团队,也已经有将近十年BI.数据挖掘.大数据分析的经验与积累,拥有基于