我是如何用机器学习技术帮助 HR 省时间的

引言

假设简历库中有 10000 份名为 “软件工程师” 的简历。 一位 HR 在搜索 “Android 工程师” 时仅关注名称为 “Android 工程师” 的简历,她将遗漏 912 份有可能匹配的简历;如果这位 HR 愿意花时间从头到尾通读每一份 “软件工程师” 的简历,将其中真正从事 Android 研发的简历筛选出来,那么她需要多阅读 9088 份无效的软件工程师简历。假设阅览一份简历需要 15 秒,这项工作将占据她 38 小时。

一、低区分度的简历——隐藏的招聘雷区

搜索和阅读简历占据了招聘的大部分时间。在 HR 搜索或阅读简历时,需要根据简历名称或工作内容对简历类别进行判断,简历类别的 “区分度” 越高,HR 越容易通过搜索定位到对应的简历,也越容易甄别出简历与空缺岗位的匹配度。

例如,HR 在招聘一名 “Android 工程师” 时,非常喜欢那些在职位名称为 “Android 工程师” 的简历,因为可以很方便地搜索和识别。这部分简历可以定义为高区分度简历。

可令人头疼的是,许多候选人的简历并未照顾到招聘者的使用体验。例如一名软件工程师在他的简历中提到了多项编程技能,并将简历名称定为 “软件工程师”,给系统搜索定位到这份简历造成了极大的难度。这就意味着:由于 JD 的编写方式与候选人编写简历方式的天然差异,大量履历匹配的简历在搜索时被遗漏,许多工作内容里包含这些关键字的简历(比如招聘专员)实际却又毫不相关。

二、大量的低区分度简历增加了甄别难度

我们从简历库中抽样了 1479818 份互联网行业中包含 “工程师” 的简历数据,按简历名称进行统计,从高到低排序后截取 Top15 展示如下:

<图 1 - 高频职位名称统计数据>

由统计数据可以看出,类别区分度低的简历在整体简历数据中占比较大。例如互联网行业中包含大量 “软件工程师”、“高级软件工程师”、“软件研发工程师”、“研发工程师” 简历,占抽样总数的 25.7%,但这部分简历却无法轻易判断候选人对应的技术方向。

实际上,Java 工程师、PHP 工程师、后端开发工程师等均可称为软件工程师。有众多 Title 为 “软件工程师” 的简历,需要根据职位或工作描述进一步判断具体类别。

例如对简历进行搜索时,输入 “Python 工程师”,简历名称中含 Python 的简历可能较少,导致搜索结果数量丰富度不高。但如果通过模型可以判断简历名称为软件工程的具体角色,增强简历的区分度,则可在软件工程师的简历中筛选属于 Python 工程师的简历,进一步提高搜索的丰富度。

三、通过机器学习方法提高角色识别的准确度

1、建立合理的职位理解
增强简历的区分度,可以理解为 “如何更准确地理解职位,包括职位的不同表达方式,以及与该职位相关的技能模型”——这件事可以基于一张专业词表完成。

例如我们定义一个简单的词表——“软件工程师” 为一级类别,其下属二级技能类别分为 Java、C++、PHP、.NET、Python、Delphi、Perl 等。这张词表定义了明确的职位 / 技能关系,当词表在 “阅读” 一份名为 “软件工程师” 的简历时,它实际阅读的是上述技能。

聘宝的知识图谱更为复杂,除技能分支外,还包含行业、公司等众多维度。

<图 2 - 聘宝的职位技能知识图谱节选>

2、如何进行高效的角色分类识别计算
深度学习方法近期在文本处理领域大受欢迎,但需要注意的是它们的训练以及测试过程十分缓慢,以至于工程应用时门槛颇高。

在进行了一系列的技术方案调研与比较后,我们尝试对比分析了三种机器学习的文本分类算法: TextGrocery,fastText,Naive Bayes。

  • TextGrocery—是一个基于 LibShortText 和结巴分词的短文本分类工具,基于线性核 SVM 分类器,使用二元分词(Bigram),不去停顿词,不做词性过滤同时支持中文和英文语料,让文本分类变得简单。
  • fastText—由 FAIR(Facebook AI)开发的一款快速文本分类器,提供简单而高效的文本分类和表征学习的方法,出自 Word2Vec 作者 Mikolov 的论文《Bag of Tricks for Efficient Text Classification》
    fastText 适合大型数据 + 高效的训练速度,能够训练模型 “在使用标准多核 CPU 的情况下 10 分钟内处理超过 10 亿个词汇”,与深度模型对比,fastText 能将训练时间由数天缩短到几秒钟。FastText 的性能要比时下流行的 word2vec 工具明显好上不少,也比其他目前最先进的词态词汇表征要好。


    <图 3-fastText 分类器模型示意图>

    <图 4-fastText 模型架构>

  • Naive Bayes——由贝叶斯定理延伸而来的概率模型,它根据每个特征的概率确定一个对象属于某一类别的概率。该方法假设所有特征需要相互独立,即任一特征的值和其他特征的值没有关联关系。

在自然语言处理领域,处理的的数据可以看做是在文本文档中标注数据,这些数据可以作为训练数据集来使用机器学习算法进行训练。

在训练样本时,构建可以表征文本的特征向量 (词汇表),并根据这个特征向量将训练集表征出来,计算各个类别的频率作为该类的先验概率,和在每个类别条件下各个特征属性的条件概率,分类时,根据贝叶斯公式计算待分类句子在每一类别的后验概率,取最大值作为其分类。

<图 5-Naïve Bayes 模型架构>

四、一个简单的分类识别实验

为更好地分析不同技术手段在增强简历区分度上的效果,我们进行了一项简单的比较实验,来展现算法是如何把低区分度的简历如 “软件工程师” 进行具体的技能方向分类的。
1、实验数据集的准备:

选取 680731 份根据职位名称判断属于二级类别的工程师简历数据,随机抽样取 80% 的数据做训练数据,剩余 20% 份作测试数据。

<图 6 - 实验数据集的分布>

2、实验效果表现:

通过实验我们发现,通过机器学习方法,我们能够快速识别低区分度简历并进行准确的分类,从而能够极大的降低人工搜索与阅读的时间。

<图 7 - 各个类别预测准确率的分布>

对比上面模型结果, fastText 模型基于词袋的针对英文的文本分类方法,组成英文句子的单词是有间隔的;而中文文本是连续的,因此对中文文本,则需分词去标点转化为模型所需要的数据格式,但分类效果一般,尤其是类别间区分度不是很大的情况下。另外参数调优对模型结果影响较大,但模型优势在于训练时间很短。所以 fastText 模型更适合做类别区分度更大且讲究分类效率的应用场景,比如将一则新闻自动划归到财经、军事、社会、娱乐等板块。

TextGrocery 模型是专门针对短文本的分类模型,直接输入文本,无需做特征向量化的预处理,不去停顿词,不做词性过滤,优雅的 API 接口,但模型准确率和模型训练时间在此角色预测模型中不是太突出。

Naive Bayes 为传统的文本分类模型,特征向量化的预处理相对繁琐、训练时间较长,但在分类类别多文本区分度不大的情况下,分类效果相比其他两种算法更为优秀。这个实验结果侧面说明,在产品实现时勿过度追求 “时髦” 的技术。对某一项特定业务来说,有助于业务实现更优效果的技术就是最好的技术。

聘宝在面对低区分度简历时的角色识别算法,吸收结合了上述各类算法的特点,面对不同场景条件时搭配应用,实现了更优的分类效果,在 TMT 行业主要职位类型上的识别准确率高于 75%。

以 “软件工程师” 为例子,在聘宝中输入属于软件工程师的职位描述,预测出可能的角色,效果如下图:

<图 8 - 聘宝角色识别效果示例>

对于其他行业低区分度的简历,同样可以训练出对应的模型。如果单个行业预测类别不用过细的话,可以将众多行业数据混合一起训练模型进行预测。

基于该实验的样本数据,假设简历库中有 1 万份名为 “软件工程师” 的简历。 一位 HR 在搜索 “Android 工程师” 时仅关注简历名称为 “Android 工程师” 的简历,她将遗漏 912 份有可能匹配的简历——这些简历均被冠以 “软件工程师” 的职位名称;如果这位 HR 愿意花时间从头到尾通读每一份 “软件工程师” 的简历,将其中真正从事 Android 研发工作的简历筛选出来,那么她需要多阅读 9088 份无效的软件工程师简历,假设阅览一份简历需要 15 秒,这项工作将占据她 38 小时。

角色识别除了在简历检索方面的应用,在其他方面也有广泛的应用空间。 如薪资预测, 根据工作描述预测角色作为特征变量,将有助于提高预测薪资的准确性。

又例如简历解析, 将简历详情页的各个区块作为文本,预测各区块所属的信息类型(如工作经验、教育经历等)后再使用对应的解析程序对区块进行解析,将大大提高简历详情页面的解析效率。

我们始终相信技术可以提高工作效率,也正因此我们在简历的分析与匹配工作上持续深耕三年,相信在机器学习技术的帮助下,HR 的招聘工作将变得更加省时高效。

参考文献:

[1] 超快的 fastText[EB/OL]. 超快的 fastText, 2017-04-10/2017-04-24.
[2] Library for fast text representation and classification.[EB/OL].facebookresearch/fastText, 2017-04-10/2017-04-24.
[3] TEXTGROCERY,更好用的文本分类 PYTHON 库 [EB/OL]. 岭南六少 - 一朵在 LAMP 架构下挣扎的云, 2017-04-10/2017-04-24.
[4] LibShortText 简要入门 [EB/OL].http://guoze.me/2014/09/25/libshorttext-introduction/, 2017-04-10/2017-04-24.
[5] NLP 系列 (2)_用 Naive Bayes 进行文本分类 (上)[EB/OL].NLP 系列 (2)_用朴素贝叶斯进行文本分类 (上) - 龙心尘 - 博客频道 - CSDN.NET, 2017-04-10/2017-04-24.
[6] 从 Naive Bayes 到 N-gram 语言模型 [EB/OL]. NLP 系列 (5)_从朴素贝叶斯到 N-gram 语言模型 - 龙心尘 - 博客频道 - CSDN.NET, 2017-04-10/2017-04-24.
[7] Bag of Tricks for Efficient Text Classification[EB/OL]. Bag of Tricks for Efficient Text Classification, 2017-04-10/2017-04-24.

====================================分割线================================

本文作者:AI研习社

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-09-19 10:11:27

我是如何用机器学习技术帮助 HR 省时间的的相关文章

“60后”沃尔玛的潮范儿:如何用机器学习技术提升客户体验?

尽管沃尔玛是一个"60后"的老公司了,但其新兴技术实力却仍处于业界领先地位,广泛应用了机器学习.物联网和大数据技术来优化零售业务和客户体验.作为全球第二大在线零售商,沃尔玛的的专利申请量.在零售技术方面的投资和创新或多或少表明:作为全球顶尖的零售商之一,沃尔玛正充分发展技术优化业务并提供给客户更好的服务. 沃尔玛实验室患者体验部的副总裁Lauren Desegur说,"我们正在探索通过机器学习技术优化购物体验,并致力于沟通患者线上和线下购物体验." 相对于其竞争对手

给道访谈第十一期:我是如何利用seo技术效益最大化和创业

访谈嘉宾:马海斌 嘉宾资料:seo专家,江湖人称羽毛老师 访谈日期:星期四晚上8:30 访谈标题:<我是如何利用seo技术效益最大化和创业> 内容提纲: 一.Seo如何盈利及效益最大化 二.如何做适合自己的seo 三.如何利用seo技术创业及我的创业经历 马海斌:大家晚上好,白天谋求生,晚上图发展,这么晚奋斗前线的都是咱们站长朋友;感谢大家的捧场.很荣幸有机会通过这么一个机会与大家一起分享一些我对seo的认识,在互动中一起学习,檫出些思想的火花;同时感谢给道访谈主持这么一个为互联网,为电商,为

十大网络攻击可以利用机器学习技术进行有效防御

即使是瑟曦.兰尼斯特的阴谋诡计或者乔拉.莫尔蒙爵士父亲般的保护(译注:两者都是HBO剧集<权力的游戏>中的人物)也无法阻止攻击者攻破HBO的网络并窃取了1.5TB的数据(包括未播出的<权力的游戏>剧集).然而,机器学习可能已经为HBO的虚拟要塞提供了更好的防护. 人工智能(AI)和机器学习(ML)是众多辩论的主题,特别是在网络安全社区内更是如此.那么,机器学习会是下一个大的安全趋势吗?人工智能准备好了接受机器学习推动的攻击吗?总的来说,人工智能是否做好了使用的准备?无论你对于机器学

机器学习技术如何打击网络零售欺诈行为

Amazon Prime会员日取得了巨大的成功.据称今年的销售总额较2016年提升了60%,总收入达到近20亿美元,称其为成功确实并不为过. 但同样着眼于数字,很多朋友可能并不清楚,Amazon公司有近5%的收入因欺诈行为而损失,总额达1亿美元.对于企业来说,这绝不是笔小钱.而且不仅仅是Amazon Prime会员日,事实上每一家网络零售商在每一天的运营当中都面临着网络欺诈的威胁. 而圣诞节等标志性零售高潮期的到来则会令事情变得更糟.有鉴于此,我们该如何阻止此类状况?至顶网与Fraugster与

网站有个功能不能用了,我是后面来的技术菜鸟,功能就是从别的网站导入证书。有图,来个帮下忙。

问题描述 网站有个功能不能用了,我是后面来的技术菜鸟,功能就是从别的网站导入证书.有图,来个帮下忙.

美国银行将 AI 应用于企业应收账款处理;联合国或将利用机器学习技术帮助救灾工作

8 月 24 日消息,据外媒报道,美国银行(Bank of America)与 Fintech 创业公司 High Radius达成合作,将人工智能应用于企业应收账款处理.该应用程序专为大型.复杂的公司管理大笔支付业务,因这些公司常常发生回款信息丢失或一方单独收到付款的情况. 美国银行全球应收账款负责人 Rodney Gardner 解释说,汇款信息的不完善导致协调过程非常艰巨并且昂贵. "我们的解决方案汇集了 AI,机器学习和光学字符识别(OCR),在应收账款对账和支付匹配中设置了一个新的条件

跨越科技鸿沟:摩根士丹利如何用机器学习辅助财富管理?

本文作者之一是巴布森学院(Babson College)管理及信息通信系教授,麻省理工学院数字经济研究员Thomas H. Davenport,同时他还担任德勤高级顾问.另一作者Randy Bean 是咨询公司 NewVantage 创始人兼CEO.此外,他还是福布斯.哈佛商业评论.麻省理工学院斯隆商学院评论.华尔街日报专栏作家. 金融机构提供自动化投资建议的系统被称作 robo-advisers .虽然从业者并不是特别喜欢这个术语,但无法阻挡它成为流行词.近期,摩根士丹利宣布,利用机器学习来"

【问答集锦】人工智能/机器学习技术在电商场景下的应用

近年来阿里不断运用深度学习.强化学习等人工智能领域的相关知识优化自身电商平台的搜索引擎和推荐系统,让其从冷冰冰的系统不断成长为越来越懂用户的智能购物助手. 日前,<尽在双11>人工智能部分执笔人&阿里技术专家 乐田 与 仁重 就 "人工智能/机器学习技术在电商场景下的应用" 问题在OSCHINA与大家开展了问答活动. 本文整理了两位老师在开源中国高手问答中的精彩问答. 1 . 机器学习在电商方面除了广告推荐之类的方面外,还有其他的应用么?谢谢,还有学习这方面需要哪些

阿里专家问答丨人工智能/机器学习技术在电商场景下的应用

近年来阿里不断运用深度学习.强化学习等人工智能领域的相关知识优化自身电商平台的搜索引擎和推荐系统,让其从冷冰冰的系统不断成长为越来越懂用户的智能购物助手. 淘宝和天猫已经从以人工运营为主分配流量和资源位的方式成功转变为以大数据和人工智能为导向的新方式. 正如<尽在双11>一书中说的那样:"技术的创新与发展必将不断推动商业模式的升级与变革,在生活的方方面面影响我们每一个人." <尽在双11>人工智能部分执笔人&阿里技术专家 乐田 与 仁重 就 "