从世界冠军到数据科学家 他是如何炼成的? | 硬创公开课

大数据这个词我们听得太多了,可是很少有人意识到,随着互联网的发展,今时今日的这些“大”字究竟已经意味着一种什么样的量级。除去少数哗众取宠的使用这个词的公司外,那些真正拥有大数据的企业,经手和处理的都是一些普通人可能穷极一生也接触不到的数字:微信朋友圈每天会上传10亿张图片,支付宝日交易额峰值超过200亿元人民币,京东每天上传几百万张新的商品信息图……

这些数字对于急需数据训练的人工智能算法来说是莫大的好消息。也意味着数据对于人工智能的重要性正在随着计算能力、算法的发展而呈直线上升。但是怎么在浩如烟海的数据中筛选出对我们真正有用的那些?又如何通过分析这些数据做出对自身有利的决策?这就是数据科学家们做的事了。

本期硬创公开课,我们邀请到了iPIN的首席科学家潘嵘,他于2004年底获得中山大学理学博士学位后,分别于2005年2月~2007年8月在香港科技大学,以及2007年8月~2009年9月在美国惠普实验室,进行数据挖掘、人工智能等方面的研究。2009年10月通过百人计划进入中山大学,任职于计算机系。2014年起任iPIN首席科学家。

潘嵘博士在2005年,参加美国计算机学会(ACM) 举办的数据挖掘国际比赛(KDDCup:数据挖掘方面每年全球最重要的比赛)。当年比赛的主题是搜索引擎查询的分类。最终获得全部三个项目(包括查询分类算法的精确度、性能以及创新性)的第一名。已获两项美国专利授权。已在相关领域的国际一流学术会议、期刊和杂志上发表超过二十篇学术论文,其中包括Artificial Intelligence, IEEE Transactions on Knowledge Discovery and Data Engineering, ACM Transactions on Information Systems, AAAI, IJCAI, ACM SIGKDD, UAI, ICDM等等。并且是多个杂志、会议的审稿人(程序委员),包括IEEE Transactions on Knowledge Discovery and Data Engineering,IEEE/ACM……AAAI,IJCAI,ICDM,WSDM,CIKM,ECML,ACML,BMWT,AAIM,PRICAI,WI,WINE等等。

如果你也想跟我们近万学霸精英用户做近距离交流,也想成为我们的产业界首席科学家分享嘉宾,请发邮件至lizongren@leiphone.com

▎学界

你博士毕业后,先去了香港科技大学,你的的核心研究方向是什么?

这里先要感谢我的博士导师李磊教授和姚正安教授,虽然他们原来都不是数据挖掘和机器学习领域的,但是他们对我博士研究方向的宽容度和实际指导都是让我非常感激的。我的博士研究方向是基于核(Kernel)的机器学习算法的研究。之后,到了香港科大,在杨强老师的指导下,我把核方法运用到基于案例推理(Case-based reasoning)。

同时,我们也在做搜索引擎的查询分类;并且与NEC公司合作,我们研究了半监督的序列关系学习算法并将其应用到室内无线定位。其中,查询分类的问题来自于像Google、百度、Yahoo、微软这些做搜索引擎的大公司的需求,目标是要提升广告投放的精准度和搜索结果的排序质量。在港科大的经历,我要感谢杨强教授对我的指导和帮助,在那段时间里,锻炼和提升了我在数据挖掘、机器学习方面的研究能力,例如:选方向、发现研究点、论文写作能力。

后面去了惠普实验室。因为什么拿到入场券?

很幸运的在港科大我们参加了2005 ACM KDDCup比赛并且获得全部三项的第一。的确对我的研究方向和成果产生了很大影响,也因此使我在后面获得了惠普实验室工作的机会。

在惠普实验室你的核心研究方向是什么?

我到惠普实验室参与的项目是一个叫变色龙项目,实际上是个性化推荐算法的研究项目,当时还是PC时代,全球市场中5台个人电脑就有一台是HP生产的,在美国,这个份额更加是1/4,只要在用户许可的情况下,就跟今天的移动互联网类似,HP是可以收集到用户在PC上的各种行为数据,然后为用户提供个性化推荐服务,从而更好的提升用户体验,在当时,推荐系统算法使用的数据主要是用户打分数据,也就是说,用户在消费完某个产品或服务后,打了评分,推荐系统才能比较的有效工作。在我参与变色龙项目的过程中,我们发现大部分用户行为都缺少打分这个过程,这其实也很合理,很多人消费或体验完也不一定会打分,所以我提出来如何在没有用户打分的情况下,照样能做推荐,后来我提出了One-Class Collaborative Filtering (OCCF) 算法,发表在ICDM’08上,之后为了解决计算效率的问题,我又提出了新的OCCF的加速算法,被KDD’09接受了。

在惠普实验室工作的经历进一步加强了我进入相对陌生研究领域的能力和信心,包括:解决应用问题的能力、数学基础、算法分析能力、工程能力。

为什么当时从惠普回来后又选择去学校任教?

一个是我自己个性的原因:喜欢独立、有自主性的做研究,也不喜欢处理复杂人际关系。另外一个是家庭和工作地点的原因,还有就是中山大学的宽松、自由的学术气氛,良好的研究条件和环境,学生也非常的优秀。

在中大任教的经历对iPIN首席科学家的工作有什么影响和帮助?

回到中山大学后,结合我过往在港科大和HP实验室的工作经历,我实验室的研究主要研究方向协同过滤、信息检、自然语言处理等。几年下来,使得我在相关领域的研究经验有进一步的积累,同时,我在挑选和培养学生方面也积累了一定的经验。还记得我刚进入研究生阶段,我的导师姚正安教授就跟我们说这样一句话,“没有不好的学生,只有不好的老师”。

当时我觉得姚老师怎么这么敢说,不过的确他对我的帮助非常的大,同时我们的博士同学的研究方向的确也不太一样,姚老师的话我一直记得,到我自己当老师的时候也用他的这句话来要求自己,恰好,我是做个性化算法研究的,因此,我希望尽量做到因材施教,这锻炼我的人才培养方面的能力。

在中山大学,我主要讲数据库、数据挖掘、信息检索等课程,结合自己的研究方向,每年我都希望在一些课程里添加一些新的内容,希望让同学们了解到比较前沿的知识,同时也有利于我梳理自己的研究。

▎产界

颜水城这样的学术大牛在谈到自己刚从学界转到工业界时都不免感到忐忑,您2014年时投入工业界,成为一家创业公司的CDO,决心来自于哪里?

其实我自己也同样忐忑,不过由于我自己前面一些经历的缘故,喜欢解决实际应用问题,或者说以解决实际问题为导向。另外,在目前的大环境下,大学里碰到的现实问题是工业界才有真实的大数据和更加真实的应用问题。

您第一次觉得可以胜任产业界首席科学家这个Title是什么时候?因为哪个标志性事件?

说实话,我不觉得我胜任这个title,或许这个问题应该由我的partner或者将来再说,谢谢!

在学术界做和产业界做,具体哪里不一样?哪里一样?

我目前的方向是数据挖掘、机器学习、自然语言处理,严重依赖大规模数据。在问题提出的方面,工业界更实际、更直接;学术界则更注重基础研究。

在问题解决的方面:工业界更多的会关注解决方案的成本与效果之间要取得好的平衡。学术界更多的会在算法的创新方面。

从学术里的青年科学家到创业公司首席科学家,成长过程中有遇到什么困难没?

其实并不一定是叫成长过程,可能是如何适应角色的转变。

首先是要有好的合作伙伴,必须在人品、价值观取得比较一致的看法,同时角色上要有互补。另外,在大学里,主要是培养人才,输送给社会。比如在iPIN,组建团队是核心要务,必须同时抓人才选拔和人才培养两个方面。同时,上面也说到了,企业是非常注重成本的(包括:金钱、人力、时间),你的任务就不是仅仅为了发paper,更重要是考虑你的解决方案是否可以落地,如何落地的问题。

一个真正的公司,对于一个首席科学家的要求是怎样的?

我目前是达不到的,我觉得首先是个人学术水平要有足够的深度和广度。同时要不断的学习,能理解实际的应用问题。并能够转化为机器学习的问题,提出、筛选各种解决问题的方案,还要了解学术界、工业界发展趋势,洞察未来的研究、技术发展方向,有自己的判断力,提前布局。

作为大数据方向的研究者,选择产业落地方向时如何下手? 

首先我想简单介绍一下iPIN的几个产品:

完美志愿,HaoHR和罗盘。完美志愿是一款能为高考生量身定制志愿方案、提前了解就业前景的高考志愿填报应用。通过分析过去4000万大学生使用独家数据库及创新算法,帮助考生更科学更高效地选择合适的大学和专业。

haoHR是一款全智能匹配更多合适简历,释放HR简历甄选工作的产品。利用语义分析解读职位需求智能人才画像,帮助HR在短时间找到更多与职位描述相似经验的人才。从而简化HR简历寻找和甄选工作,让HR把时间花在更有价值的工作上。

罗盘是一款根据用户工作经历自动匹配机会并进行职业规划的产品。通过人工智能语义分析技术深度解读求职者过往经历,全面、精准、快速地帮助求职者找到更多更好的工作机会。利用大数据分析上亿人职业历程及市场趋势,及时、省心地帮助求职者做出职业方向决策判断

以上就是这三款产品,其实,这几款产品虽然在产品形态上很不一样,但是它们的内核都是职场人才数据的分析与挖掘,在2013年,我们就确定了利用人才大数据,构建首张中国经济图谱。并在2014年初步完后,之后我们才不断研发相关的产品,例如以上的例子。

请以一个具体例子举例,数据挖掘做到何种程度,才能真正产生价值?————这些数据如何经过采集、聚合、构架,到机器学习、自然语言处理、复杂数据分析、预测模型、大规模运算、可视化、数据应用等步骤成为最终用户觉得有价值的数据。

我具体说说完美志愿,它是2015年最多人使用的高考志愿填报工具,能量身定制志愿方案、提前了解全国2500多所大学10万多个院系的详细就业信息,被诸多用户称为高考志愿神器。完美志愿由人工智能公司iPIN的科学家团队倾力打造,采用志愿填报黄金法则,采取“录取概率预测-个人偏好筛选-性格职业匹配-就业前景分析-志愿策略选择”五个步骤,这五个方面是我们根据用户调研情况进行分析后得到的用户真正的需求,实现这些,完美志愿这个产品才能帮助高考学生和家长更科学更合理地选择志愿,真正做到为梦想导航。

是一套方法论通用还是有一些独家心得?

首先,自己要熟悉或有类似经验,要有相关的数据、有市场、竞争程度适中(教育市场和市场竞争都要有很大的代价),要学会顺势而为,因为在实际创业的过程中有偶然因素、要会变通。

学生提问:怎么想出来某个算法的。我常常看论文会发现一些很巧妙的算法,除了考虑算法的应用场景之外,更想知道一个算法怎么诞生的?

其实这是个可能很长的过程,我们常说站在巨人的肩膀上迈出一小步。首先,我们要爬上巨人的肩膀,爬得上去,迈一小步才有意义。所以我们要了解某个(或某些)领域过往的工作,领域内的主要的、有影响力的研究人员有哪些。顶级的会议、期刊有哪些,现在互联网这么发达,了解这些应该不是太难。这里头过去的大量的书籍、文献需要我们去阅读、吸收、消化的。

这个过程中涉及到选方向、发现研究点(或问题),这可以在大量的论文阅读中训练这方面的能力,你不但要学习到文献中的优点的部分,同时自己要习惯质疑,论文中有哪些假设不合适,哪些算法有改进空间

另外,在这个过程中也应该结合实际的应用提出你具体的研究问题,发现问题后(等于是爬上巨人的肩膀,准备迈出一小步了)。通常我们认为提出解决算法并验证算法有效性的这个过程相对而言是比较容易的,当然,这里头涉及到很多细节,就不展开了,有兴趣的话,可以参考Eamonn Keogh 2012年在KDD上的关于如何做数据挖掘研究的tutorial。

学生提问:数据挖掘目前不是一个定义清晰的学科,如果选了这个方向,应该必修什么课程?选修什么课程?

必修:(前置课程有程序设计、数据结构与算法、组成原理、计算机网络等)数据库、概率与统计、机器学习与模式识别。

选修:GPU/并行计算、数据仓库、数据可视化、深度学习、商业智能(BI)、群体智能(CI),一些面向不同应用领域的课程,例如:信息检索、NLP、语音、图像方面。

本文作者:宗仁

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-10-21 11:54:20

从世界冠军到数据科学家 他是如何炼成的? | 硬创公开课的相关文章

预告:从世界冠军到数据科学家 他在挖什么? | 硬创公开课

数据挖掘的英文叫Data Mining,Mine有"矿"的意思.因此做数据挖掘的学者们常常戏称自己为"矿工".不过,其实数据挖掘的研究过程与采矿确实有异曲同工之妙.数据的收集.筛选.分析和应用,正如矿石的勘探.开采.提纯和使用一样,每个步骤都看起来都是大海捞针,但在合适的方法下,这些"针"又每次都能被恰如其分的挖掘出来. 大数据这个词我们听得太多了,可是很少有人意识到,随着互联网的发展,今时今日的这些"大"字究竟已经意味着一种

牛人解读: 如何从一个青年科学家变成首席科学家? | 硬创公开课

相信不少学者在面对艰深的科研课题的时候,心中都有过那么一丝疑惑:这东西何时能实现产业化,真正造福社会?尽管心中的信念不会因此动摇,但疑惑仍然长时间的存在着.一项新技术从在实验室中诞生,到最终投入大规模使用,这其中经历的艰难和磨难会远远多于常人的想象.学术研究和商业化应用可以说是几乎同样困难的两个课题.有人醉心于探索科技最前沿的方向和理论,但也有人更希望自己能帮助将这些技术落地到具体的产品中去,真正的为大家服务.这些人中的很多最后都去到了相关公司的实验室中贡献出自己的一份力量,也有些自己创业,开始

如何用大数据做威胁情报 | 硬创公开课

       大数据.威胁情报,这两个词汇听起来非常性感.在我们的想象中,掌握大数据的人就像先知和上帝,俯视我们所不能完全理解的事态,精准地预言我们将要面临的危机.然而,对于大数据的利用是非常考验功力和技巧的.很多学艺不精的团队稍不留神就可能把威胁情报搞成"摆摊算卦".  本期硬创公开课我们请来了白帽汇的创始人刘宇,白帽汇拥有一样独门武器,那就是NOSEC大数据平台,可以汇总诸多白帽子网罗的独特情报.像黑客一样去思考,就是他们的自我要求,今天就请刘宇来聊聊白帽汇在真枪实弹的对抗中,究竟

如何利用大数据做金融风控?| 硬创公开课

随着金融科技.科技金融等概念的热起,以及互联网金融.无金融服务群体的刚性需求下,大数据风控技术也获得越来越广泛地重视和应用.但是,如何利用大数据.机器学习等前沿技术做金融风控?如何通过海量数据与欺诈风险进行博弈?本次硬创公开课我们邀请了同盾科技首席风险官董骝焕博士为我们解答. 董骝焕是南开大学概率统计博士,他博士毕业后加入中科院,2007年加入IBM/ ILOG从事决策模型在各种业务问题中的应用.2010年至2013年先后在FICO和SAS支持金融反欺诈事业.2015年5月15日,董骝焕加入同盾

如何利用大数据做遗传病智能化诊断?| 硬创公开课

据OMIM数据库(人类孟德尔病数据库)数据,单基因遗传病的病种数量约有7000种,其中约4000多种致病基因和发病机制比较明确.单基因遗传病单个发病率低,但单基因病种类极多,所以总体发病率高,且具有先天性.致死致残性的特点. 就诊断而言,单基因遗传病涉及多个学科,临床症状复杂,且由于基因的突变具有多样性,每种突变都可能导致不一样的临床症状,而突变的临床意义也相当复杂,故诊断较为困难.而且,许多遗传病都及其罕见,属于罕见病,对于一名医生来说,诊断经验不足,根据症状极易误诊. 所以对于临床医生而言,

杉数科技CTO王子卓:4大案例告诉你,如何用机器学习玩转企业大数据 | 硬创公开课

在上一期雷锋网AI掘金志硬创公开课<十大场景案例详解:人工智能如何提升商业效益>中,我们通过案例详细介绍了AI用于商业实战中的场景和效益.而为了真正帮助推动AI落地,我们将带来更多场景单点技术干货分享,以飨读者. 因此,本期公开课,雷锋网邀请到杉数科技CTO王子卓博士来进行主题为"如何利用机器学习做运筹优化与智能决策"的分享. 以运筹优化与智能决策为例,王子卓表示,大数据要产生实质价值,必须真正提升决策质量.规律性分析能够从海量数据中发掘出规律,但是找到规律并不自然而然带来

氪信资深数据科学家主讲:如何构建基于AI的金融风控系统 | 硬创公开课

高风险.高收益是金融行业永恒的标签.也因如此,金融行业非常重视风控.据多位资深金融人士表示,从事风控后,他们总是处于战战兢兢的忧虑中.他们上一次大规模的忧虑发生在十几年前.世纪之交的美国缺乏对于风控意义的认知,明明借着互联网的东风却在半途摔了个七零八落. 新科技的出现必然会对原行业产生一定影响.技术无所谓利弊,问题在于人的使用.在风控得到足够重视,AI成为最热门科技的现在,诸多从业人士不由得开始思考AI的应用价值,如何将AI与风控相结合并发挥出其积极作用? 本期雷锋网公开课邀请到氪信资深数据科学

大数据征信如何为一个人建立数据肖像?| 硬创公开课

"凡走过必留下痕迹",大数据时代,你的一举一动都在为你建立一个电子档案,从你有多少张信用卡.每个月消费多少.还款记录如何到你喜欢浏览什么网站.手机是什么型号甚至IP地址对应的位置,有一万多个词条可以刻画你的肖像,银行在不需要跟你打交道的情况下可以靠这种数据肖像决定要不要给你放款.放多少合适.这就是大数据征信. 每个人每天会产生无数的信息,征信机构如何从这里面抽丝剥茧找到有效的数据,又如何给每个数据设置合理的权重去建立模型?机器出现故障之后又如何修正?我们请到了在征信上有多年经验的嘉宾.

华大基因BGI Online负责人金鑫主讲:基因大数据的起源、现状与未来| 硬创公开课

随着基因测序价格以超摩尔定律的势态下降,其被广泛应用于基因组学研究.临床诊断以及多种疾病个性化治疗等领域.对此,业内人士认为,当今基因测序行业面临最大的挑战已不再是基因测序技术,而是处理巨大的数据量以及如何从巨大数据中获取临床指导.据雷锋网了解,生物信息分析服务是目前业界公认的最具发掘潜力以及盈利能力的环节,但目前国内还处于起步阶段. 那么,基因数据与其他数据有何异同?处理基因数据又何难点和挑战?基因数据的未来是怎样的?本次公开课,雷锋网AI掘金志栏目邀请了华大基因研发中心副总监金鑫,带来<基因