在8月14日下午举办的互联网大会2013中国大数据发展论坛上,腾讯微博相关负责人高自光分享了大数据技术的运用经验。他表示,大数据本身可以实现三个方面的效果:
第一对内容本身的理解,这个内容不限于一篇微博、一个视频、一篇文章,可能还有广告;
第二对用户的理解,用户的行为、轨迹等信息;
第三对关系的理解,这是最关键的,包括用户和用户之间的关系,内容和内容之间的关系,用户和内容之间的关系。
他还列举了大数据技术在腾讯微博的几个应用场景,例如推荐系统,用户登录腾讯微博之后,需要给他推荐感兴趣的人,提供他的朋友信息,一种是基于兴趣,一种是基于关系的。腾讯微博通过大数据技术让这种推荐更加精准。
高自光还表示,大数据不仅是一种能力,还是一种工具。“现在的数据特别多,如果能把我们的数据使用好,包括数据、数据挖掘能力、算法、平台……有这些东西,就能够很好地解决商业化的一些问题。”
以下是腾讯微博高自光的分享实录:
大家下午好,我用30分钟分享一下我们在微博里面大数据的应用。首先我自我介绍,我是来自微博的,在腾讯做了十几年,一直做技术,这几年做产品技术相结合的产品。我更多的想跟大家讲,大数据概念在具体互联网产品里面是什么样的。大数据已经谈了很多年,最近这几年又一次非常集中的提这个概念。互联网大会第一次设立这个话题。就目前为主大数据的应用比较多的是商业化的领域,怎么利用大数据做点击率提升等等方面。在互联网产品当中怎么做大数据?现在摸索的还不是很多。
我先简单的讲一讲我们对大数据的理解。为什么又再一次提出大数据呢?其实数据有很多变革,第一它的规模,噪声越来越多,速度越来越快,价值越来越大。第二现在的硬件技术和软件技术没有跟上数据规模的变化,但是现在的技术相对几年前是有足够应用空间的。现在我们想到,一个产品的运算,像我们腾讯微博,运行的技术、成本、平台。更重要的是思维变革,我们之前做互联网应用的时候,我们更多的是做抽样,但是现在很少做抽样。我们以前为什么做抽样?因为跑了太长时间了,现在不做抽样了,是思维的变化。
因为什么所以什么?现在我们不强调这个问题,我们只知道这是相关的,发生A事件之后就发生B事件,但是这两者是什么关系,我们不清楚。把相关事件打在一起,发生A事件之后,B事件点击率会高,但是因果关系不怎么追求了,但是肯定是有关系的。我个人感受非常深的,在今天开放的数据,隐私问题,很多情况是能避免的,越来越多开放的社区出现了。你使用一个产品,你使用微博,就意味着有这个问题,因为这个产品开放的时候,就是开放的,你关注什么人,不存在隐私的问题。我们在这个平台上做运算的时候,就会涉及隐私问题。
大数据能做什么?第一对内容本身的理解,这个内容不限于一篇微博,一个视频,一篇文章,可能还有广告。第二个就是对用户的理解,用户的行为,用户的轨迹,基本的信息。第三对关系的理解。其实这是最关键的,用户和用户之间的关系,内容和内容之间的关系,用户和内容之间的关系。出现A页面的时候,你推荐B页面,点击率很高。出现A用户的时候,推送B用户点击率很高。最后一个是趋势,趋势就是关系的变革,我们对点击率用户,做监控,情感分析,还有像电影票什么的,它是一种趋势,我专门搜出来。大数据在应用里面有这么几个类型。
在我们微博平台上用户规模依然是强大的,现在有5.6亿多用户,每天产生多少总的发表量,几千亿,你分析社交关系,是数百亿的,5.6亿的人际关系连接。每一篇新闻,每一篇微博发出来以后,有多少传播路径,我们用关系链传播,又是什么样的成果?我们每天有数百亿计的产品。现在的数据是更开放的,开放的数据一定是显示数据的。
刚才谈到微博的产品里面核心的东西无非就是两种,一个就是用户,一个就是内容,用户发的微博和图片,就这两种东西。现在的用户,大家在上网可选择的东西很多,花多少时间在微信,多少时间在微博。我们现在考虑微博下一代朝哪里走?核心的就是提高效果。你能在最少的时间内让用户看到所有的信息,看到他感兴趣的信息,这就是我们强调的问题。在这种情况下,我们就衍生了大数据的使命。我把我们微博里面运用比较多的应用场景列出来的。
第一个就是推荐系统。一个人上来以后,你给他推荐感兴趣的人,他的朋友。一种是基于兴趣,一种是基于关系的。你只有让他形成更强的关系链,就是他的好朋友,形成更好的兴趣,感情,交集圈。推荐系统和广告推荐是很相似的,算法做法是一样的。
第二个是微频道,核心目前就是给内容分类。微博是很短的,虽然是140个字,平均就是二三十个字,这么短的文本你怎么进行分类,美食,购物,到底是什么?还有更短的,我们把它分出来。把内容进行分类,把好的东西放到用户面前。
第三个叫微热点,真正实现信息关联。微博里面每时每刻都有热点事情发生,用机器发现哪些热点事件能读出来。它要做的事很多,第一发现热点事情,第二把热点事情聚在一起形成热点事件的脉络,第三把热点事件投放到用户面前,是纯自动的形式。每天数亿的数据怎么把它挑选出来。
第四叫微圈,其实就是智能分储。在微博上可以看到谁的微博,要取决于你上线的时间,正好在那个时间发表微博,因为微博操作很容易,你点一下按纽就可以关注他了,但是随着时间的积累,很活跃的用户的关系链已经上千人了,信息量非常多,你上线的时间正好是他发微博,你就看见了,你感兴趣的,你前女友有没有发微博,你关注的人有没有发表微博,你怎么拉取信息的?我们要做的把用户所有历史上已经关注的一千人自动分组,为什么分组?因为用户不会一个一个的关注,95%的人不会分组,他不愿意做,没有人做这个事,那我们做,这是非常难的事。大数据基本上都是智能的。大数据准确率是75%,80%。你能做到我们分组能做到百分之多少的准确率?如果做到60%,上线会被骂死。准确率达到什么样的程度,才能吸引更多的人。因为我们把准确率控制到一定的水平才能上线的。达到百分之多少之后大家才接受,我们才会上市的。
第五个是微博管家。怎么样把好的东西挑出来,垃圾自动过滤。我们邮箱就有垃圾箱,微博也有人做吗?不这么做有很多原因,一是技术是不是准确,二是商业化的问题。我相信不愿意做的原因就是商业化的问题。商业化的价值怎么做,这是需要我们做的,把垃圾信息过滤掉。
这是我们的事例。用户推荐,一个是基于感性的,我们用到了用户的兴趣模型,用到了用户在微博历史上用了那么长时间的微博,我会发现你经常收听哪些人,经常干什么,你对什么领域感兴趣,这个就是兴趣模型最直接的使用。还有一个就是刚才提到的长关系(音译),长关系是社交网络里面非常重要的,长关系要用二维,大家都知道现在有六度空间了,任何两个人的空间都可以利用六个人的空间找到,六度空间基本上是正确的,任何两个人都连一下,不超过4。我们推荐熟关系的时候,就是要把左右可能潜在的朋友,他不知道,他来微博了,他不知道,怎么摆放在他面前,这是5.6亿×5.6亿的关系,这个运算量很大。
广义的推荐系统,不仅仅推荐人,可能是推荐信息,我们在腾讯网慢慢引入这种技术的使用。当你看到这个新闻的时候,我可能在相关性里面,有相关的微博,相关的事宜,通过技术的自然连接,实现内容的串联。他的用户和更多的电商类的,都属于推荐类的应用。
微频道刚才提到了,对优势内容的挑选。单纯从技术角度来考虑这个问题,文本分类是很难的事,因为文本很短,还要分类,不像一些文章,几百个字进行分类,你有充足的理由做这个事,这里面需要很多办法,你不能把精力都放在文本本身,还有用户呢。这个用户老发财经类的内容,他发文章的时候,财经概率很多。利用这种思维,用更多的特征来学习,不要局限在内容本身里面准确会大幅提升。分完类之后还要把差的质量去掉,把好的质量选出来。比如说展示量,各种各样的东西,都是帮助你学习的。
微热点,这里面卷都是机器自动实现的,一件事情的发生,没有人参与,都是机器做的,而且我的机器可以发现这个事情的脉络,首先会把时间点,最热的信息拿出来,然后基于关键词把热点事情挖出来。用户上微博,大部分都是提留在主页上,如果主页提每个事件的话,再吸引你点击。我们用大量数据做这个事很有意义。我们做这个事根本不需要人做,只需要个别人看看,不要有太明显的错误,删删改,每天运营式的,自然的就出来了,这是很智能的。
这是我们的微圈。在PC上网,会把历史信息自动分好组。我们研究了特别多的运算。我们做社交网络分析的时候,很多都是很复杂的,我们做了特别多的改进,怎么把效率提高,把最小的图给解出来。分好组之后,里面有几个同学,我比较感兴趣的,前女友比较多的话,几个前女友分在一起的话,可以去里面看一下。这里面就是对信息和效率很好的提升。
微管家技术难点就是对内容质量的判断。最后就是我们的几点经验。大数据是一种能力,还是一种工具。其实现在的数据特别多,如果能把我们的数据使用好,你有很多的数据,你有很强的数据挖掘能力,算法,平台,如果你有这些东西,能够解决好某一个商业化的价值,很简单的比如说电商,我们腾讯和网点通合作,我们腾讯和它做基于兴趣的广告,利用好大数据,提升一个产品的体验,解决好一个产品的发展方向,如果你找到这些才是我们的出路。如果我们空有数据放在那里,我们也有很强的技术,各种云计算,什么都有,但是没有很好的商业模式,没有很好的产品应用,这样的话就很难施展了。我们长期的摸索,每天有大量的数据进来,数据挖掘团队,有很强的技术能力。找不到商业模式的话,价值是有限的。把我们的数据和技术,以及产品应用和商业化应用结合是我们很重要的目标。
原文发布时间为:2013-08-18