触类旁通,专业技能热度智能分析 | 论文访谈间 #23

随着就业压力与日俱增,“技能鸿沟”(Skill Gap)已成为困扰各方的重要因素。一方面,求职者希望有针对性地准备相应专业技能,以便从激烈竞争中脱颖而出。另一方面,招聘方也希望把握热门技能的流行趋势,为人力资源部门提供指导。

虽然已有机构发布了热门技能的分析报告,但这些报告多半基于简单统计,既未能区分不同关注类型下技能的评判标准,又未考虑技能之间的潜在层次关联。因此,更为准确、全面的技能热度分析成为应时之需。

然而,这个问题有着不小的挑战:

1. 在求职时,不同的人对工作的偏好常常是不同的,有人偏爱挑战自我,这些人更可能选择工作强度高的大型公司;有人则追求生活和工作的平衡,他们更可能倾向于家乡小公司里悠哉的工作。

同时,不同类型的公司和职位对技能的需求也是千差万别的,因此需要实现不同招聘关注类型影响下的技能热度分析。

2. 技能需求从来不是独立存在的,而是存在很强的潜在关联性。例如「node.js」和「Javascript」常常一同出现,却绝少和「machine learning」出现在同一个工作需求中。

此外,技能也存在层次关系,例如「node.js」和「Javascript」就都属于「前端技术」这一类别。因此,需要将技能间的关系引入技能热度分析中。

为了应对上述挑战,来自中国科学技术大学的徐童博士,来自百度人才智库的祝恒书博 士、朱琛、李磐,以及美国罗格斯-新泽西州立大学熊辉教授的论文“Measuring the Popularity of Job Skills in Recruitment Market: A Multi-Criteria Approach”(已被 AAAI2018 接收)首次从多准则的角度对技能热度进行了分析,并提出一个新颖的招聘数据分析模型,并且在真实应用场景中取得创新性的成果

具体而言,首先基于技能在招聘需求中的共现度,构建了用于表示技能间关联性的网络(Skill-Net),接着将每个技能构成的自我网络(ego-network)当作文档,相邻技能节点作为单词进行建模。

在此基础之上,通过借鉴主题模型(topic modeling)的思想,作者们提出了技能流行度主题模型 SPTM(Skill Popularity Topic Model),来建模技能间的共现关系。

△ 图1:技能关联网络(Skill-Net)

△ 图2:基于“Skill-Net”生成文档

此外,为建模技能和不同招聘关注类型(例如工资水平、公司规模)之间的关系,作者们将每个关注类型和一个主题相关联,并认为每个文档只可能包含特定关注类型的主题。

同时为了将技能类别信息引入模型,他们用变量表示每个技能所属的类别,藉此 SPTM 得以建模每个技能和其他技能类别间的相关关系。

最后,通过给定不同关注类型组合的观察变量, SPTM 模型可以通过贝叶斯条件概率对相关技能进行排序。

△ 图3:技能热度分析框架图

对话作者

关于本文的创新,作者是这样认为的:

在技术层面,SPTM 技术框架具有以下两点新颖性。首先,基于真实简历文档建立技能之间的网络,并结合技能类目信息,对于技能进行了层次化关联描述。

其次,在概率图模型的统一框架下,实现技能关联与关注类型进行联合建模,从而改传统面向单一条件的简单排序任务为面向任何前置规则组合的生成概率表达,提升了技能热度分析的精度和灵活性。

与此同时,SPTM 技术框架也具有一定的应用价值,它填补了求职者与招聘方之间的“技 能鸿沟”,提供了不同关注类型下的技能热度分析,在为求职者提供规律性就业指导的同时,相关实验也证实了其应用于智能招聘领域的可行性。

关于本文的实际应用,作者认为基于 SPTM 所提供的热门技能排序功能,主要可以为招聘市场参与各方提供两方面的作用

对于求职者而言,将提供有针对性的就业指导。例如,论文对求职者最为关心的公司规模与工资两个因素下的热门技能进行了案例分析,结果发现大型企业更看重“数据”的价值, 而高收入往往要求独创性的工作。

对于招聘方而言,将提供简历筛选乃至结果预测的辅助。例如,作者们基于某著名互联网公司所收到的十余万份真实简历及其筛选结果进行了相关性分析,结果显示基于 SPTM 对 简历中技能的评分,与最终的录取结果呈现高度的相关性,证实了 SPTM 框架在简历筛选中的作用,这对于缺乏专业知识的人力资源部门而言尤其具有辅助价值。

原文发布时间为:2017-12-20

本文作者:何伟栋

时间: 2024-09-18 09:49:47

触类旁通,专业技能热度智能分析 | 论文访谈间 #23的相关文章

基于新标注模式的实体和关系联合抽取方法 | 论文访谈间 #07

本期论文访谈间我们将以"川普百科信息抽取"为例,来向大家介绍来自中科院自动化研究所的郑孙聪同学,王峰同学,包红云老师,郝悦星同学,周鹏同学,徐波老师的相关工作.他们的论文"Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme"发表在今年的 ACL 2017 上,并被评为 ACL 2017 杰出论文. 实体和关系的联合抽取问题作为信息抽取的关键任务,其实现方法可以简单分为两

“嗨,我叫汪仔,今年三岁了”- 论如何为聊天机器人定义一个固定的人格 | 论文访谈间 #12

近年来,人工智能之火大家已经有目共睹了:从<未来简史>.<必然>等国外著作到李开复的<人工智能>.李彦宏的<智能革命>等成为畅销书,大众对于 AI 的热捧程度达到了历史高点,人机对话是人工智能领域中最重要的问题之一,聊天机器人(chatbot)顺势成为了研究的热点. 聊天机器人这一热潮可从两个角度进行解释:从学术上,机器人的智能一方面体现他能否理解人类的语言并给出合理的回复,另一方面也体现在他是否足够的类人化,即可以被当作一个人类用来交流,这对应了人工智能的

化繁为简,自动为词汇推荐义原组合 | 论文访谈间 #15

在第十期<论文访谈间>,我们介绍了义原信息(sememe)在提高词向量表示能力方面的作用.义原信息(sememe)是词意的最小语义单位,一个词的意思可以认为是多个义原信息的组合.在 HowNet 中,可以具象化出这种 word-sense-sememe 的结构,如下图所示: 其中苹果是我们的目标单词,网络包含苹果的两个不同意思,而 sememe 分别解释了两个 sense 的具体含义.  为了在 NLP 任务中利用义原信息,需要为词汇进行义原标注.传统的人工标注费时费力,同时由于会让多个专家进

让问答更自然 - 基于拷贝和检索机制的自然答案生成系统研究 | 论文访谈间 #02

让机器像人类一样拥有智能是研究人员一直以来的奋斗目标.由于智能的概念难以确切定义,图灵提出了著名的图灵测试(Turning Test):如果一台机器能够与人类展开对话而不能被辨别出其机器身份,那么称这台机器具有智能.图灵测试一直以来都被作为检验人工智能的象征.问答系统本身就是图灵测试的场景,如果我们有了和人一样的智能问答系统,那么就相当于通过了图灵测试,因此问答系统的研究始终受到很大的关注. 传统知识问答都是针对用户(使用自然语言)提出的问句,提供精确的答案实体,例如:对于问句"泰戈尔的出生地在

“嘿,机器,你是怎么做好翻译的呀?” “来,我画给你看!” | 论文访谈间 #01

如果有一个功能神奇的"黑箱子",你想不想打开它,好好研究一番?神经机器翻译就是这么一个"黑盒",只要给它一句中文,就能将对应的英文顺利地翻译出来,如何才能一探其中的究竟呢?清华大学的丁延卓同学.刘洋老师.栾焕博老师和孙茂松老师在今年 ACL2017 上的工作就将这其中的奥秘"画给你看". 近年来,深度学习快速发展,神经机器翻译(Neural Machine Translation)方法已经取得了比传统的统计机器翻译(Statistical Mac

见微知著,从细节处提升词向量的表示能力 | 论文访谈间 #10

词向量是将词映射到低维空间进行表示的一种方法,它可以降低输入信息的稀疏性,同时赋予表示向量一定的词义.作为 NLP 领域的一项基本任务,词向量扮演着十分重要的角色,它为机器翻译,自动问答,对话系统等提供了一个较为准确的单词表达形式.但是词的意思是多种多样的,在不同的情境下会有不同的意义,如何能够更准确地表示出词的意义,对 NLP 领域中的其他任务来说具有重要的意义.来自清华大学的牛艺霖,谢若冰,刘知远老师和孙茂松老师发表在 ACL2017 上的论文"Improved Word Represent

Hey,在 MOOC 上你该这样学习 | 论文访谈间 #11

知识先后序关系是人们在学习.组织.应用和产生知识的过程中广泛存在的知识间的认知依赖关系.本杰明·布卢姆(Benjamin Bloom)在 1968 年提出,学生必须在基础知识上达到一定程度的掌握(例如,基础知识的 90%),然后才能继续学习后续的知识概念.从此, 知识概念之间的先后序关系成为学校和大学设计课程的基石.  在传统的大学课程中,一般由老师或者助教以概念先后序关系组织知识结构,从而改进课程规划,指导学生学习,提高教育质量.然而,在大规模在线开放课程(Massive Open Onlin

求同存异,共创双赢 - 基于对抗网络的利用不同分词标准语料的中文分词方法 | 论文访谈间 #06

在中文信息处理中,分词(word segmentation)是一项基本技术,因为中文的词汇是紧挨着的,不像英文有一个天然的空格符可以分隔开不同的单词.虽然把一串汉字划分成一个个词对于汉语使用者来说是很简单的事情,但对机器来说却很有挑战性,所以一直以来分词都是中文信息处理领域的重要的研究问题.  如今 90% 乃至 95% 以上的中文分词准确率已不是什么难题,这得益于模型和算法上的不断进步.在传统 CRF 中,特征需要人工设定,因此大量繁杂的特征工程将不可避免.近几年深度学习的发展给很多研究问题带

层叠注意力模型 - 实现机器阅读的正确姿势 | 论文访谈间 #04

通过搜索引擎我们可以轻松获取到海量的知识,可我们通常不会觉得一台电脑"知识渊博"--计算机并不理解这些知识,只能给你一系列相匹配的检索结果.在我们眼中,计算机更像是一座高级的图书馆,而不是一位能理解你所想所问的博学之士. 好消息是这一点正在逐渐改善.机器阅读理解,一项致力于教会机器阅读人类的语言并理解其内涵的研究,作为目前自然语言处理领域中的热门方向受到了广泛关注.与传统的问答系统不同的是,阅读理解任务更注重于对于篇章文本的理解,机器必须自己从篇章中学习到相关信息,而不是利用预设好的世