百度技术沙龙第22期:海量数据挖掘与行为分析

  “深刻洞察和理解用户需求”是每一个互联网企业生存和发展的基础,而要达到“洞察”和“理解”就离不开对海量用户进行数据发掘与行为分析。随着社交网络和社会化媒体的掀起,“社交化、社会化”也成为了当今互联网的发展趋势之一。在社交时代,对于广大互联网企业来说,有效的数据挖掘和分析算法不仅可以深度分析用户属性和用户关系,并获取用户的真实反馈,从而在此基础上对产品进行针对性的优化和改进,达到真正满足用户的需求和喜好,最终提升用户的使用体验并增强其对产品的使用黏性。

  2012年1月7日,由百度发起的技术沙龙第二十二期在京如期举行。尽管元旦刚过,春节即将来临,但丝毫未能影响工程师们参会的热情,仅通过微博报名的工程师就多达119人。当天,来自国内各大互联网企业的数百位软件工程师围绕“海量用户的数据挖掘与行为分析”这一互联网领域基础却又前沿的话题,进行了深入的探讨和交流。百度网页搜索部用户行为分析方向高级工程师彭滔和人人网Social Graph算法工程师张叶银,分别从“搜索引擎评估与互联网用户行为分析”和“社会化推荐算法在人人网的应用实践”两个维度出发,与广大工程师们就相关领域分享了多年来的经验和体会。

  

  图:百度技术沙龙持续“爆棚”

  据中国互联网信息中心(CNNIC)的报告,搜索引擎已经成为中国互联网的第一大应用。而作为全球最大中文搜索引擎,百度每天响应着来自138个国家和地区的30多亿次请求。基于如此海量且千差万别的用户需求,如何判断一种新的排序算法优劣与否?

  彭滔表示,搜索引擎的评估主要与“相关性”以及“快、准、全、新”两个维度有关,其经典的衡量指标是是“DCG”(Discounted cumulative gain)。彭滔颇有新意地以“史前时代、农耕时代、机器时代、X时代”四个时代为喻,介绍百度在互联网不同发展阶段的评估方法。在“史前时代”,百度的评估主要依靠人工,评价结论给出的时间也相对滞后;在“农耕时代”,则“进化”到了众包和百度搜索评测平台(wse,web search evaluation)的方式,主要依靠集体的智慧进行评估;到了“机器时代”,则是直接利用线上实验,验证策略的好坏,主要的方法包括AB testing、Bucket testing等;面对未来的“X时代”,彭滔认为主要将面临“人工评价与AB testing指标存在冲突、短时用户喜好与长期用户成长之间的不同、以及交互与社会化元素的评判等问题。” 彭滔最后强调,“无论是史前时代、农耕时代、机器时代还是X时代,搜索引擎评估的根本原理都没有改变,评估算法最终都是在评估用户的体验。”

  

  图:百度网页搜索部用户行为分析方向高级工程师 彭滔

  Social Graph作为社交网络的基础,为人人网提供了基础的关系服务,保证了好友推荐的有效性以及信息流通的时效性。在Social Graph基础上,可以发现好友及好友间的层次关系,它是真实生活圈的映射,基于这些网络关系,用户可以迅速找到感兴趣的人和事,从而促进人与人之间的交流。张叶银介绍,推荐系统在人人网的整个系统中异常重要,主要是给用户推荐他可能感兴趣的东西,包括好友推荐、商品推荐、文档推荐、广告推荐等,主流的推荐算法有协同过滤、内容过滤、社会网络等。对于推荐系统的评测,一般可从准确度、覆盖率、多样性以及新颖性等方面去评测。

  在分享中,张叶银还以社交化的好友推荐、个性化推荐等为例,对“无监督的聚类分析和有监督的学习算法”的应用进行了详细阐述,诸如贝叶斯推理等知识引发了与会者的极大兴趣。

  时值岁末年初,本期技术沙龙还特别邀请了丁香园CTO冯大辉,与非网的首席架构师姜太文、海豚浏览器CTO刘铁锋、百度项目管理部高级工程师乔梁等互联网权威专家、技术达人来到现场,对2011年的技术应用进行全面回顾与精彩点评,并对2012年互联网技术发展趋势进行了展望和预测,让工程师们可以紧跟互联网的技术脉搏。

  

  图:海豚浏览器CTO刘铁峰解读2012技术趋势

  

  图:百度项目管理部高级工程师乔梁分享持续交付的发展

  在互动讨论环节,与会工程师纷纷结合实际工作中的问题,就数据挖掘、行为分析、搜索评估、推荐算法等技术领域,向讲师及嘉宾们进行了针对性的提问,大家在踊跃发言、各抒己见的氛围中共同寻求问题的解决之道。

  

  图:Open Space环节

  迄今为止,秉承“畅想、交流、争鸣、聚会”理念的百度技术沙龙已经成功举办了22期,在为互联网工程师、软件开发者提供一个快速学习和不断成长平台的同时,自身的行业影响力也在不断扩大。在业内人士看来,作为中国互联网领导企业的百度,以开放的心态无私分享其领先的技术理念和技术实践时,将能吸引越来越多的企业加入到开放分享的行列中来,从而用集体的力量,推动中国互联网行业的技术发展和变革。

时间: 2024-08-01 15:51:22

百度技术沙龙第22期:海量数据挖掘与行为分析的相关文章

百度技术沙龙第十七期:论剑富客户端时代的JavaScript框架

中介交易 SEO诊断 淘宝客 云主机 技术大厅 目前,几乎所有网站都在使用JavaScript和Ajax技术,好的框架不仅可以帮助设计师和开发人员把精力集中在关键业务上,而且可以避免重复开发,打造优秀网站,最终提升用户体验. 2011年8月20日,由全球最大的中文搜索引擎公司百度发起的第十七期技术沙龙在北京京仪大酒店二层热烈举行.来自各大互联网企业的数百位软件工程师围绕JavaScript框架话题进行了深入探讨和交流.百度商务搜索部前端工程师董睿.IBM中国开发中心的高级软件工程师成富与参会者共

百度技术沙龙:倡导技术交流,推动互联网全行业发展

中介交易 SEO诊断 淘宝客 云主机 技术大厅 互联网行业缺的不是技术,而是开放技术的心态.大企业鄙帚自珍,将实在积累的珍贵技术经验仅用于内部,不愿对外分享.而绝大多数中小企业却并不具备开放技术的能力.因此,开放是一张心态,同时也是一种能力.善用这种能力将以蝴蝶效应引发整个互联网行业的变革,促使整个行业面目一新. 由互联网领军企业百度发起,植根于互联网.专注于技术的百度技术沙龙即是这只蝴蝶.在秉承"畅想.交流.争鸣.聚会"的宗旨下,百度技术沙龙每期都会关注一个业内焦点话题,邀请百度及其

第十二期百度技术沙龙:数据库架构与性能决定大型网站竞争力

中介交易 SEO诊断 淘宝客 云主机 技术大厅 云计算浪潮汹涌而至,来自四面八方的海量数据已呈爆炸之势,如何给前端用户提供稳定.顺畅.安全.高速的体验服务,这既要求后台数据库系统顺应业务模式的变革不断升级,又能满足数据量爆增所带来的各种存储.查询.分析.挖掘等各种需求. 2011年3月19日,由全球最大的中文搜索引擎百度公司主办的第十二期技术沙龙,在京仪大酒店隆重举行.此期技术沙龙将主题锁定在"大型网站数据库架构设计与性能优化"上,200多位来自各个行业和领域的数据库技术开发者汇聚于此

百度技术沙龙:聚焦互联网产品的体验与设计

中介交易 SEO诊断 淘宝客 云主机 技术大厅 用户体验是人们对于使用或期望使用的产品.系统以及服务的认知印象和回应.可见,用户体验是主观的,且其注重实际应用.计算机技术和互联网的不断发展,让行业也由卖方市场进入了买方市场--用户正在决定一切.这也使得技术创新形态正在发生转变,以用户为中心.以人为本的思想越来越得到重视,用户体验是否优秀已经成为了衡量一款产品是否具备用户价值和商业价值的最重要因素. 2011年12月17日,由全球最大的中文搜索引擎公司百度发起的第二十一期技术沙龙在北京京仪大酒店二

移动搜索@百度技术沙龙 一键直达业界最权威的技术分享盛会

中介交易 SEO诊断淘宝客 站长团购 云主机 技术大厅 如果你是一个程序员,那你不可能没听说过百度技术沙龙,作为国内最早的技术开放交流活动,百度技术沙龙每月都会组织一次技术开放交流分享,至今已经举办了54期.4年多的时间里,无数程序员从这里"偷师"成功,最终走上了代码界的巅峰. 如今,百度技术沙龙要把高端.前沿和技术分享发挥的更加极致,百度技术沙龙直达号将于近日上线,届时,一个完整的技术分享盛会会被全部搬进你的手机里. 据悉,直达号是服务提供商在百度移动平台的官方服务账号.基于移动搜索

百度技术沙龙一周年成绩斐然 “开放”驱动中国互联网

中介交易 SEO诊断 淘宝客 云主机 技术大厅 自从人类社会的发端开始,技术就与每个人息息相关,一刻也没有离开过.互联网等先进技术的诞生更加让人们坚信技术是社会进化的决定性力量.未来,我国互联网发展要从"大国"走向"强国",技术仍是最主要的驱动力. 作为全球最大的中文搜索引擎,百度一直引领发展潮流,不断致力于互联网进入开放时代.技术沙龙正是百度参与并推动互联网技术开放交流的重要举措.据悉,百度技术沙龙(http://salon.baidu-tech.com)自201

【笔记】2016年01月16日百度技术沙龙车库咖啡笔记

2016年01月16日 前端接入技术 GoLang BFE 七层流量接入平台 学习成本 开发成本 性能差别,可以接受,可以通过其他方式弥补 GC 垃圾收集 优化思路 减少对象数 用C代码来做 对象池 总结 不能改变太多,要跟随主流版本 解决 关闭GC,多进程工作 服务态,等待态,GC态 细节 多进程监听同一个端口 模块化->服务化 通过指标进行监控 百度搜索速度优化 速度的度量 客户端,JS埋点,第三方检测 速度优化 接入质量 ### RTT 识别 还可以根据位置信息综合判断接入商 分配 区域接

百度技术沙龙:基于大数据的预测技术

主题一:大数据与预测 百度的沈志勇首先提到了自己对大数据时代的理解,他认为这其实是机遇与挑战并存的时代,大数据使整个社会都有了数据意识.大家都知道怎么样采集和记录,把数据都写下来或者是记通过各种各样的方式记下来,以前没有这个意识.这样其实对于机器学习来讲,才能有更加广阔的数据源,对于算法来讲也可以有更多的数据.数据多了以后,多元数据往往存在分布的问题,这样会带来很多问题,我们要解决这种问题往往需要采用一种复杂的模型,这样可以应对下面列出来的问题.这样形成一个时势造英雄的态势. 沈志勇提到:"我们

百度第十五期技术沙龙:设计可靠实时的社区网站

中介交易 SEO诊断 淘宝客 云主机 技术大厅 未来的互联网将是一个人与人相互连接的世界,社区网站正随着这一趋势的确立而持续蹿红.相较一般性的资讯发布网站,社区更强调用户之间的交互,因此,可靠性和实时性便成为了社区网站技术架构非常需要 具备的特征,只有动态实时地将信息安全.可靠的传递和流动,才能给用户和社区平台带来价值. 2011年6月25日,由全球最大的中文搜索引擎公司百度发起的第十五期技术沙龙在北京京仪大酒店二层召开,围绕着当下社区网站技术架构如何适应日益爆发的社交趋势,以及社区网站的信息可