大数据这个词我们听得太多了,可是很少有人意识到,随着互联网的发展,今时今日的这些“大”字究竟已经意味着一种什么样的量级。除去少数哗众取宠的使用这个词的公司外,那些真正拥有大数据的企业,经手和处理的都是一些普通人可能穷极一生也接触不到的数字:微信朋友圈每天会上传10亿张图片,支付宝日交易额峰值超过200亿元人民币,京东每天上传几百万张新的商品信息图……
这些数字对于急需数据训练的人工智能算法来说是莫大的好消息。也意味着数据对于人工智能的重要性正在随着计算能力、算法的发展而呈直线上升。但是怎么在浩如烟海的数据中筛选出对我们真正有用的那些?又如何通过分析这些数据做出对自身有利的决策?这就是数据科学家们做的事了。
本期硬创公开课,我们邀请到了iPIN的首席科学家潘嵘,他于2004年底获得中山大学理学博士学位后,分别于2005年2月~2007年8月在香港科技大学,以及2007年8月~2009年9月在美国惠普实验室,进行数据挖掘、人工智能等方面的研究。2009年10月通过百人计划进入中山大学,任职于计算机系。2014年起任iPIN首席科学家。
潘嵘博士在2005年,参加美国计算机学会(ACM) 举办的数据挖掘国际比赛(KDDCup:数据挖掘方面每年全球最重要的比赛)。当年比赛的主题是搜索引擎查询的分类。最终获得全部三个项目(包括查询分类算法的精确度、性能以及创新性)的第一名。已获两项美国专利授权。已在相关领域的国际一流学术会议、期刊和杂志上发表超过二十篇学术论文,其中包括Artificial Intelligence, IEEE Transactions on Knowledge Discovery and Data Engineering, ACM Transactions on Information Systems, AAAI, IJCAI, ACM SIGKDD, UAI, ICDM等等。并且是多个杂志、会议的审稿人(程序委员),包括IEEE Transactions on Knowledge Discovery and Data Engineering,IEEE/ACM……AAAI,IJCAI,ICDM,WSDM,CIKM,ECML,ACML,BMWT,AAIM,PRICAI,WI,WINE等等。
如果你也想跟我们近万学霸精英用户做近距离交流,也想成为我们的产业界首席科学家分享嘉宾,请发邮件至lizongren@leiphone.com
▎学界
你博士毕业后,先去了香港科技大学,你的的核心研究方向是什么?
这里先要感谢我的博士导师李磊教授和姚正安教授,虽然他们原来都不是数据挖掘和机器学习领域的,但是他们对我博士研究方向的宽容度和实际指导都是让我非常感激的。我的博士研究方向是基于核(Kernel)的机器学习算法的研究。之后,到了香港科大,在杨强老师的指导下,我把核方法运用到基于案例推理(Case-based reasoning)。
同时,我们也在做搜索引擎的查询分类;并且与NEC公司合作,我们研究了半监督的序列关系学习算法并将其应用到室内无线定位。其中,查询分类的问题来自于像Google、百度、Yahoo、微软这些做搜索引擎的大公司的需求,目标是要提升广告投放的精准度和搜索结果的排序质量。在港科大的经历,我要感谢杨强教授对我的指导和帮助,在那段时间里,锻炼和提升了我在数据挖掘、机器学习方面的研究能力,例如:选方向、发现研究点、论文写作能力。
后面去了惠普实验室。因为什么拿到入场券?
很幸运的在港科大我们参加了2005 ACM KDDCup比赛并且获得全部三项的第一。的确对我的研究方向和成果产生了很大影响,也因此使我在后面获得了惠普实验室工作的机会。
在惠普实验室你的核心研究方向是什么?
我到惠普实验室参与的项目是一个叫变色龙项目,实际上是个性化推荐算法的研究项目,当时还是PC时代,全球市场中5台个人电脑就有一台是HP生产的,在美国,这个份额更加是1/4,只要在用户许可的情况下,就跟今天的移动互联网类似,HP是可以收集到用户在PC上的各种行为数据,然后为用户提供个性化推荐服务,从而更好的提升用户体验,在当时,推荐系统算法使用的数据主要是用户打分数据,也就是说,用户在消费完某个产品或服务后,打了评分,推荐系统才能比较的有效工作。在我参与变色龙项目的过程中,我们发现大部分用户行为都缺少打分这个过程,这其实也很合理,很多人消费或体验完也不一定会打分,所以我提出来如何在没有用户打分的情况下,照样能做推荐,后来我提出了One-Class Collaborative Filtering (OCCF) 算法,发表在ICDM’08上,之后为了解决计算效率的问题,我又提出了新的OCCF的加速算法,被KDD’09接受了。
在惠普实验室工作的经历进一步加强了我进入相对陌生研究领域的能力和信心,包括:解决应用问题的能力、数学基础、算法分析能力、工程能力。
为什么当时从惠普回来后又选择去学校任教?
一个是我自己个性的原因:喜欢独立、有自主性的做研究,也不喜欢处理复杂人际关系。另外一个是家庭和工作地点的原因,还有就是中山大学的宽松、自由的学术气氛,良好的研究条件和环境,学生也非常的优秀。
在中大任教的经历对iPIN首席科学家的工作有什么影响和帮助?
回到中山大学后,结合我过往在港科大和HP实验室的工作经历,我实验室的研究主要研究方向协同过滤、信息检、自然语言处理等。几年下来,使得我在相关领域的研究经验有进一步的积累,同时,我在挑选和培养学生方面也积累了一定的经验。还记得我刚进入研究生阶段,我的导师姚正安教授就跟我们说这样一句话,“没有不好的学生,只有不好的老师”。
当时我觉得姚老师怎么这么敢说,不过的确他对我的帮助非常的大,同时我们的博士同学的研究方向的确也不太一样,姚老师的话我一直记得,到我自己当老师的时候也用他的这句话来要求自己,恰好,我是做个性化算法研究的,因此,我希望尽量做到因材施教,这锻炼我的人才培养方面的能力。
在中山大学,我主要讲数据库、数据挖掘、信息检索等课程,结合自己的研究方向,每年我都希望在一些课程里添加一些新的内容,希望让同学们了解到比较前沿的知识,同时也有利于我梳理自己的研究。
▎产界
颜水城这样的学术大牛在谈到自己刚从学界转到工业界时都不免感到忐忑,您2014年时投入工业界,成为一家创业公司的CDO,决心来自于哪里?
其实我自己也同样忐忑,不过由于我自己前面一些经历的缘故,喜欢解决实际应用问题,或者说以解决实际问题为导向。另外,在目前的大环境下,大学里碰到的现实问题是工业界才有真实的大数据和更加真实的应用问题。
您第一次觉得可以胜任产业界首席科学家这个Title是什么时候?因为哪个标志性事件?
说实话,我不觉得我胜任这个title,或许这个问题应该由我的partner或者将来再说,谢谢!
在学术界做和产业界做,具体哪里不一样?哪里一样?
我目前的方向是数据挖掘、机器学习、自然语言处理,严重依赖大规模数据。在问题提出的方面,工业界更实际、更直接;学术界则更注重基础研究。
在问题解决的方面:工业界更多的会关注解决方案的成本与效果之间要取得好的平衡。学术界更多的会在算法的创新方面。
从学术里的青年科学家到创业公司首席科学家,成长过程中有遇到什么困难没?
其实并不一定是叫成长过程,可能是如何适应角色的转变。
首先是要有好的合作伙伴,必须在人品、价值观取得比较一致的看法,同时角色上要有互补。另外,在大学里,主要是培养人才,输送给社会。比如在iPIN,组建团队是核心要务,必须同时抓人才选拔和人才培养两个方面。同时,上面也说到了,企业是非常注重成本的(包括:金钱、人力、时间),你的任务就不是仅仅为了发paper,更重要是考虑你的解决方案是否可以落地,如何落地的问题。
一个真正的公司,对于一个首席科学家的要求是怎样的?
我目前是达不到的,我觉得首先是个人学术水平要有足够的深度和广度。同时要不断的学习,能理解实际的应用问题。并能够转化为机器学习的问题,提出、筛选各种解决问题的方案,还要了解学术界、工业界发展趋势,洞察未来的研究、技术发展方向,有自己的判断力,提前布局。
作为大数据方向的研究者,选择产业落地方向时如何下手?
首先我想简单介绍一下iPIN的几个产品:
完美志愿,HaoHR和罗盘。完美志愿是一款能为高考生量身定制志愿方案、提前了解就业前景的高考志愿填报应用。通过分析过去4000万大学生使用独家数据库及创新算法,帮助考生更科学更高效地选择合适的大学和专业。
haoHR是一款全智能匹配更多合适简历,释放HR简历甄选工作的产品。利用语义分析解读职位需求智能人才画像,帮助HR在短时间找到更多与职位描述相似经验的人才。从而简化HR简历寻找和甄选工作,让HR把时间花在更有价值的工作上。
罗盘是一款根据用户工作经历自动匹配机会并进行职业规划的产品。通过人工智能语义分析技术深度解读求职者过往经历,全面、精准、快速地帮助求职者找到更多更好的工作机会。利用大数据分析上亿人职业历程及市场趋势,及时、省心地帮助求职者做出职业方向决策判断
以上就是这三款产品,其实,这几款产品虽然在产品形态上很不一样,但是它们的内核都是职场人才数据的分析与挖掘,在2013年,我们就确定了利用人才大数据,构建首张中国经济图谱。并在2014年初步完后,之后我们才不断研发相关的产品,例如以上的例子。
请以一个具体例子举例,数据挖掘做到何种程度,才能真正产生价值?————这些数据如何经过采集、聚合、构架,到机器学习、自然语言处理、复杂数据分析、预测模型、大规模运算、可视化、数据应用等步骤成为最终用户觉得有价值的数据。
我具体说说完美志愿,它是2015年最多人使用的高考志愿填报工具,能量身定制志愿方案、提前了解全国2500多所大学10万多个院系的详细就业信息,被诸多用户称为高考志愿神器。完美志愿由人工智能公司iPIN的科学家团队倾力打造,采用志愿填报黄金法则,采取“录取概率预测-个人偏好筛选-性格职业匹配-就业前景分析-志愿策略选择”五个步骤,这五个方面是我们根据用户调研情况进行分析后得到的用户真正的需求,实现这些,完美志愿这个产品才能帮助高考学生和家长更科学更合理地选择志愿,真正做到为梦想导航。
是一套方法论通用还是有一些独家心得?
首先,自己要熟悉或有类似经验,要有相关的数据、有市场、竞争程度适中(教育市场和市场竞争都要有很大的代价),要学会顺势而为,因为在实际创业的过程中有偶然因素、要会变通。
学生提问:怎么想出来某个算法的。我常常看论文会发现一些很巧妙的算法,除了考虑算法的应用场景之外,更想知道一个算法怎么诞生的?
其实这是个可能很长的过程,我们常说站在巨人的肩膀上迈出一小步。首先,我们要爬上巨人的肩膀,爬得上去,迈一小步才有意义。所以我们要了解某个(或某些)领域过往的工作,领域内的主要的、有影响力的研究人员有哪些。顶级的会议、期刊有哪些,现在互联网这么发达,了解这些应该不是太难。这里头过去的大量的书籍、文献需要我们去阅读、吸收、消化的。
这个过程中涉及到选方向、发现研究点(或问题),这可以在大量的论文阅读中训练这方面的能力,你不但要学习到文献中的优点的部分,同时自己要习惯质疑,论文中有哪些假设不合适,哪些算法有改进空间
另外,在这个过程中也应该结合实际的应用提出你具体的研究问题,发现问题后(等于是爬上巨人的肩膀,准备迈出一小步了)。通常我们认为提出解决算法并验证算法有效性的这个过程相对而言是比较容易的,当然,这里头涉及到很多细节,就不展开了,有兴趣的话,可以参考Eamonn Keogh 2012年在KDD上的关于如何做数据挖掘研究的tutorial。
学生提问:数据挖掘目前不是一个定义清晰的学科,如果选了这个方向,应该必修什么课程?选修什么课程?
必修:(前置课程有程序设计、数据结构与算法、组成原理、计算机网络等)数据库、概率与统计、机器学习与模式识别。
选修:GPU/并行计算、数据仓库、数据可视化、深度学习、商业智能(BI)、群体智能(CI),一些面向不同应用领域的课程,例如:信息检索、NLP、语音、图像方面。
本文作者:宗仁
本文转自雷锋网禁止二次转载,原文链接