腾讯数十亿广告的秘密武器:利用大数据实时精准推荐

本文是福布斯中文网“数据大玩家”专栏中的一篇文章。接受提问的蒋杰先生,是腾讯数据平台部总经理,在加入腾讯前,他曾经是支付宝的数据经理。提问的车品觉先生,是中国信息协会大数据分会副会长。

在过去几年,你在腾讯做了什么来推动大数据的应用?

过去三年,我一直在坚持一件事:推动大数据的实时应用。现在从国外数据中心的数据,一秒钟可以达到深圳数据中心,这就是腾讯具备的数据能力。有了这个能力,就可以做很多商业化行为的模式。

目前腾讯收集的数据已经超过了1万亿条, 计算机规模已经超过了8千8百台。这么庞大的数据如果能实时处理,就能发挥出巨大的商业价值。这个商业价值就是精准推荐。

每年腾讯几十亿的广告,其基础来自于数据的精准推荐。实时数据推荐还可以用于视频的推荐,腾讯音乐推荐,新闻客户端的推荐,游戏道具的推荐,等等。

目前我们做到从数据进来到投放数据,延时不会超过50毫秒。有这个技术基础,腾讯的精准推荐才有了基础。

从内部管理而言,实时也降低了成本。因为实时数据处理可以用足“每一秒”。传统的数据仓库一般从晚上零点到第二天早上八点,做数据截断、抽取和处理,因为早上九点老板就要看数据报告了。数据处理的时间只有一天之中的三分之一,其他时间都是空闲的。

当我们把数据做到实时处理的事后,实际意义是将分析时间成本分摊到全天,成本更低。同时这也有利于控制风险,因为只要一出错马上可以监控,迅速回滚。

所以你将大部分精力放在了“实时”上,你为什么认定“实时”会为腾讯增加更多的商业价值?

数据首先是有时效性的,一秒钟前的行为和一秒钟后的行为有着天差地别。

以往我们通过统计数据,得出规律,找到用户喜好。而现在实时变得更为重要。前一秒你看了母婴内容,那么几秒内就应该推送相关广告,转化率会比较高。如果你还在推送几天前,这个用户看足球的数据信息,这个生意就很难做下去了。

在腾讯,我们分三个领域各自研究精准推荐:数据整理、实时计算、算法研究。我深知,实时计算是关键核心。

在我的脑海中,一切数据必须以消息为中心,实时处理、提炼瓜分。实在解决不了的数据,再做离线分析。

比如一张照片,在数据处理端口肯定首先被实时过滤,这张照片是在哪里拍的?其中几个人,通过什么方式拍摄的?在所有数据收集处理完之后,我可能还需要找这张图片与其他图片的关联关系,这时才会做离线处理。

腾讯基本上90%以上的数据都是在线实时处理。我一直在坚持将腾讯的数据集中起来,放在一个平台体系之下,这其实是来自阿里巴巴的教训。(蒋杰原来在支付宝数据部门工作)阿里巴巴的数据直到今天还是四分五裂。

其实,我对于数据的实时经验也是在支付宝时期积累的。当时我学到的一点是,如果没有搜索引擎的支撑,就根本无法做数据分析。当时很多人都说,没有办法让数据在6秒内被搜索出来,而我坚持认为可以达到。

实际上,现在在腾讯,一万五千个字段,在3秒之内所有的数据交叉都可以实现。这是一个做技术的本分。

在实时这个领域,技术上的难点是什么?

我一直在慢慢弱化数据仓库,逐步走向实时数据仓库。其中最大的问题是,如何实现数据实时获取?

数据实时处理的前提,首先是实时采集。我的办法是一方面和业务部门谈好,另一方面我将数据采集文件部署到所有的机器里,从安装操作系统的时候就写入数据采集文件。这样,腾讯所有40万台机器都可以协同操作。

过去两年,腾讯从原来的一小时响应,到现在一秒钟精准推送,CTR (点击率)能提升20%。规模越大效果越明显。

精准推荐有三大要素,第一是数据,第二是实时,第三是算法。

首先要有强大的数据,如果数据缺失什么都干不了;第二,效果明显的是实时,第三才是优化算法。这是整个精准推荐体系的核心。实时在其中排在第二,我们的实践证明, 在什么都没变的情况下,频率改变带来了整体收入的提升。

在解决了获取数据之后,数据底层所遭遇的最大困难是什么?

眼下的挑战在于深度学习。大数据时代,腾讯有200PB的图片数据,如何去挖掘图片数据的价值?如何去挖掘语音数据的价值?

我们正在做的是从结构化数据分析转向非结构化数据。如何从非结构化数据中提炼商业价值?这包括了深度学习的DNN和CNN技术,包括如何做文本之间相似度的关系。这都是需要突破的点。

微信所有的语音训练都是深度学习的办法来处理。比如,每当你在用微信放语音的时候,机器自动翻译成文字,就是靠深度学习网络来训练的。但目前,计算能力依然是一个门槛,这个能力并非我们想象这么轻松,需要更多计算技术来改进。

未来数据处理会有剧烈的改变么?

硬件决定了数据的能效。数据规模越大,数据展现的方式会越多,未来实时计算的处理需求会越来越旺盛。相信未来,能贴合更多应用场景的高效计算引擎会出现,这是我对未来的判断。

很明显的是,如果当前一秒的数据没有处理完整,提炼清楚,随后的分析成本就会越来越高,而数据的价值则越来越低。所以,在未来,高效计算引擎和存储引擎的出现,会对大数据发展有突飞猛进的效用。

后记:

在蒋杰看来,没什么比实时更重要。在腾讯,他敏感意识到实时数据对于广告的价值,所以把大部分精力放到实时处理数据以及如何优化广告投放上。

今天很多公司的数据仓库是离线的,也因此数据距离实际业务很遥远,这个距离不仅仅是无法实时反应,更多在于无法保证数据的稳定和质量。

以此而言,数据实时化是业务与数据的结合的关键。

但实时数据并非终点。

每秒都在生产新数据,新数据与既有数据之间的关系如何梳理?假如我们一直通过数据收集、分析得知,电脑前坐着的是一只狗,但假如某天的数据收集显示,它会猫叫。那么我们能判断电脑前的其实是一只猫么?

这不仅仅是数据更新变化这么简单,而关系到我们如何判断和分析。

所以,此时,延时判断变得很重要。

如何在庞大数据面前,做出延时判断?尽管你有实时数据分析的能力。

这可能是下一个更有趣的话题。

时间: 2024-10-25 01:44:34

腾讯数十亿广告的秘密武器:利用大数据实时精准推荐的相关文章

为了十亿赌局:万达的大数据实验

"十年后,电商在中国大零售市场的份额能否达到50%?"这是一年多前,阿里巴巴董事局主席马云与万达集团董事长王健林设下的"赌局".去年12月,王健林的一句"就此作罢",看似以"玩笑"的方式终结了和马云的亿元赌局.然而,随话语应声落地的便是万达广场的O2O智能电子商务平台"万汇网"和手机应用"万汇"的上线.而与万达在O2O 领域探索齐头并进的是其不断扩张的商业版图,保守估计,2015年全国将

仅前三季度就帮三大运营商牟利数十亿

仅前三季度就帮三大运营商牟利数十亿 垃圾短信屡治不绝自有"安身术" "我每天至少能收五六条垃圾短信,有的是推销理财产品,有的是医疗广告,甚至还有卖枪支卖假币的."海南海口市民顾志斌说,有一天竟收到了同一个号码发来的3条内容一样的垃圾短信"本公司有多余票据对外代开,经营范围,货物销售.广告.资讯.工程.服务.建筑材料等." 顾志斌收到的这些垃圾短信,仅仅是近些年垃圾短信泛滥的一个缩影.虽然近年来有关部门多次出台措施整治垃圾短信,但这一"顽

数十亿背后的红包硬实力比拼

当你紧握手机"摇一摇"抢红包时,目不转睛的不止是你自己.千里之外,还有一批"数据控"盯着电视屏幕,监测着红包发放的实时数据. 数十亿红包,如何扛住数千亿量级的数据洪流?这背后是微信与支付宝红包大战的硬实力比拼. 时间拨回到除夕夜"总决赛",当晚22时30分,微信"摇一摇"抢红包迎来最为紧张的时刻:在广州TIT创意园3号楼和腾大17楼,微信后台运营团队目不转晴地盯着电视屏幕,一边看着春晚实况,一边监控后台数据:央视春晚送红包互动

利用SS7漏洞可追踪全球数十亿部手机 黑客千里之外窃听澳洲议员

本文讲的是 利用SS7漏洞可追踪全球数十亿部手机 黑客千里之外窃听澳洲议员,澳大利亚版电视节目<60分钟时事>(60 Minutes)展示了黑客如何在数千公里外的德国窃听并追踪澳洲参议员 存在于现代通讯技术中的一个大型安全漏洞使得全球数十亿手机用户的数据可能遭到秘密窃取,黑客可以窃听电话并追踪受害者地理位置. 手机信令系统System Signalling Number 7(SS7)存在漏洞,黑客.骗子.流氓政府和肆无忌惮的商业运营商得以使用数以百计的在线端口进行入侵. "六十分钟时

权威详解 | 阿里新一代实时计算引擎 Blink,每秒支持数十亿次计算

作者介绍 王峰,淘宝花名"莫问",2006年毕业后即加入阿里巴巴集团,长期从事搜索和大数据基础技术研发工作,目前在计算平台事业部,负责实时计算北京研发团队. 在阿里巴巴的11年工作期间,持续专注大数据计算与存储技术领域,基于Hadoop开源生态打造的数据基础设施一直服务于搜索.推荐等阿里核心电商业务场景,最近一年带领团队对Apache Flink进行了大量架构改进.功能完善和性能提升,打造出了阿里新一代实时计算引擎: Blink.目前数千台规模的Blink生产集群已经开始在线支持搜索.

如何做到“恰好一次”地传递数十亿条消息

在分布式领域中存在着三种类型的消息投递语义,分别是:最多一次(at-most-once).至少一次(at-least-once)和恰好一次(exactly-once).本文作者介绍了一个利用Kafka和RocksDB来构建的"恰好一次"消息去重系统的实现原理. 对任何一个数据流水线的唯一要求就是不能丢失数据.数据通常可以被延迟或重新排序,但不能丢失. 为了满足这一要求,大多数的分布式系统都能够保证"至少一次"的投递消息技术.实现"至少一次"的投递

维基解密再爆猛料:CIA利用漏洞入侵全球数十亿个人电子设备

美国当地时间本周二,维基解密称他们获取到了8761份来自美国中央情报局(下称CIA)的文件.这些文件透露了美国政府的强大黑客工具可以通过监控数十亿人的日常电子设备来窥探大家的隐私,电视.智能手机甚至杀毒软件都有可能受到CIA的黑客入侵.一旦入侵后,他们能够获取你的声音.图像和短信信息,甚至是经过加密软件处理的聊天内容. 据维基解密所说,这些数据代号为Vault 7,文件日期介于2013年和2016年之间,据说是已公布的相关CIA最大规模的机密文档,文件细数了CIA所用的网络入侵工具及其拥有的入侵

中信资本数十亿日元收购特耐王集团多数股权

ChinaVenture北京时间8月13日下午消息,据路透社消息,中信集团旗下的私人直接投资公司中信资本收购了位于东京的纸箱制造商Tri-Wall KK(特耐王集团)的多数股权. 中信资本在此次收购中共支付了数十亿日元,同时计划支持Tri-Wall KK的扩张并助其在数年内在香港上市. 据称,Tri-Wall KK重型纸板的大部分亚洲业务来源于日本之外,该部分销售额占比高达75%.Tri-Wall KK方面表示欢迎中信资本成为其主要投资人,部分原因是公司希望在香港上市. 中信资本于2004年开始

互联网公司如何使用数十亿人的个人数据?

被推送.被记录.被打标签.被索引.被简报.被盘问.被编号--所有这一切都是互联网公司的日常行为. 数据收集产业,这个靠着从社交媒体和移动设备上搜集信息片段获利的行业,影响每个人的生活,却不受任何有意义的监管审查.     上周,位于奥地利维也纳的文化倡导组织 "破解实验室( Cracked Labs)",发布了一份长篇报告,称"数字环境下,个人频繁被调查评估,被分类编组,排名排位,编号量化,包含/排除,并由此被区别对待." 该报告题为<日常生活中的大规模监视: