这是一个信息爆炸的时代,因而信息过滤和基于大数据的个性化推送,便成了至关重要的事情。而这,也正是今日头条可以从众多新闻客户端中脱颖而出的重要原因。
2012年8月,今日头条上线,以其独有的大数据分析和定制化推荐而迅速受到热捧。从资讯客户端变为数据挖掘的推荐引擎,创业不足三年,这家公司的估值已经达到5亿美元,而这些都是今日头条背后所蕴藏的大数据算法的价值。
如何推测你的喜好?好算法不如大数据
当你身在外地旅游时,打开今日头条,你会突然发现,它为你推送的消息里,多了几条当地的旅游攻略。当你晚上失眠睡不着时,打开APP最先看到的,多是情感相关的内容。这些都是今日头条用户使用的场景之一,你也许会好奇,它是如何做到更懂你的呢?今日头条的负责算法数据的技术副总裁杨震原给了我们答案。
“个性化推荐算法就是基于投票的方法,”杨震原说到,今日头条个性化推荐的核心理念其实就是投票。“实际上个性化推荐并不是机器给你推荐,而是人与人之间在互相推荐。”
他将个性化算法比作是数豆子的方法,每一个人拿一个豆子,喜欢哪一篇文章就把豆子给这篇文章,然后由机器去数,最后得到结果。依照这种算法,同样两篇文章,当前三个人都对第一篇文章做出“投票”时,那么,给第四个人推送的必然就是第一篇文章了。
此外,人群可以基于年龄、性别、地域、职业等分类,而文章也可以通过关键词、发布时间、所属地区等分类,再结合用户反馈的数据,才有了“你关心的,才是头条”。杨震原表示,今日头条推荐的方法也是机器学习的算法,在移动互联网时代有很多豆子产生,当你拿着手机每看一篇文章,你的每一次点击和搜索,各种行为,都会被记录下来产生数据。
如杨震原所说:
“More data beats better algorithms,大数据胜过好算法,大数据时代的到来才真正释放了这些算法的价值和意义。”
今日头条的下一个五年,机器才能抹平信息鸿沟
创业三年以来,张一鸣的团队,积累了2.2亿用户的使用习惯和数据。这些数据要怎么才能更好玩呢?于是,他们搞了一场有关“算数”的发布会,第一次通过数据,向外界展示了今日头条的用户是怎样的一群人。
根据他们发布的数据报告显示,男性用户占到了65%的比例,而虽然女性用户较少,但是她们的平均停留时长在8分钟,明显高于男性的5.5分钟。
“广西的人最爱点赞,河北人最爱看段子,最关心时政的是山西人,最关注八卦的是天津。”
这都是今日头条根据用户习惯得出的数据。张一鸣解释说,
“过去是依靠人总结知识,现在可以通过系统、学习用户的行为特征来储存智慧。有很多人问我,未来5年今日头条会变成什么样?其实大家看我研究的APP,大概能知道我在关注什么。”
张一鸣边说边把自己手机里400多个APP展示给大家看。他自己总结了三个努力的方向:
一是让更多种类信息,包括文字、图片、短视频如何在更多场景下给用户更好的推荐。其次是能不能把握用户越来越多的习惯和数据,使基于相同兴趣的用户更好的进行交流和互动。第三是希望能够连接更多O2O的服务,让今日头条变为“今日生活”。
那么在今日头条背后做数据支持的算法和大数据呢?
张一鸣认为,在下一个五年中,将有越来越多人的兴趣、行为被投影到网络世界,当数据越来越多,机器就会越来越懂我们。在张一鸣看来,大数据就网络空间的“上帝”,在俯视观察着所有人。
“虽然机器的智商未必高于见多识广的人,但人的记忆量有限,处理的数据量也有限。机器却可以不知疲倦,每时每刻都可以输入海量数据。通过感知理解判断之后形成机器的智慧,能够大规模的抹平信息的鸿沟。”
上线不足三年,2.2亿用户,2000万日活。对于团队所取得的成绩,张一鸣并没有太过沾沾自喜,毕竟今日头条算法推送的背后还有着太多需要改进和优化的地方,产品也仍在遭到用户不断的吐槽。更重要的是,1月19日,搜狗刚刚推出了“微信头条”,竞争对手,正在紧随其后。
最后,附数据图两张,小伙伴们请自行对号入座哦~
(责任编辑:mengyishan)