美国时间8月4日—8日在阿拉斯加州召开的KDD2019(国际数据挖掘与知识发现大会)上,我国数据挖掘领域的创新技术以论文的形式获得发表。
“很多时候静态文本无法充分表达人们内心最深层的需求,而动态交互行为的文本偏好信息恰能辅助你理清内心真实的需求。”北京大学计算机科学技术研究所研究员严睿表示,为了更好地为求职者和岗位之间达成匹配,北大团队与BOSS直聘自然语言处理中心通过引入记忆模块,首次利用简历文档和岗位描述文档历史交互行为下的信息来学习潜在偏好的信息,把人类求职经历中的“偏好”体现在数据的“记忆”中。
KDD大会评审对该论文的反馈认为:“全球范围看,以往数据挖掘技术主要应用于电商、金融等大领域,而在具有公共属性行业的人力资源行业却很少见,具有创新意义。”
“KDD的投稿今年采用双盲式评审,并且不设置作者对审稿人意见的辩驳环节。作者并没有为自己申辩的机会。尽管如此,针对我们发表的这篇文章,3位评审都对方法的创新性给予了高度肯定。”BOSS直聘自然语言处理中心负责人宋洋介绍,让评审认可的创新性在于,新模型加入了“真实世界”,也可以说是“真实情感”。
人类的记忆是有偏好的,让数据也长出“记忆”,能更准确地挖出大数据中有用的信息。之前的研究集中于对比“简历与岗位”在文本上的匹配度,而在现实世界中,除了静态文本信息外,动态行为交互信息(例如求职招聘双方各自的面试历史记录)中蕴含着对预测匹配更有帮助的因素。
“我们发现,双方的偏好也决定着匹配的准确度。”宋洋表示,团队利用记忆网络对面试历史记录这一外部知识进行学习,并加入到模型参数中去,从而提升人岗匹配效果。
让数据长出“记忆”,是不是符合人类群体的“记忆”?这个方法究竟能不能提高匹配准确度呢?这些都需要实践检验。
“我们基于BOSS直聘的数据集采用5个评测指标对模型进行验证。”宋洋解释,社会公共类的调查没有真人实验,但可以固定一个时间窗口来取求职者和招聘者双方的历史面试记录,用来预测之后一段时间样本集合内的求职者和招聘者双方是否发生匹配,这与实际情况是一致的,实验结果也证明全新的数据挖掘技术优于当前最优的人岗匹配方法。
据悉,作为世界数据挖掘领域最高级别的学术会议,今年KDD研究论文录取率仅为14%,阿里巴巴、今日头条等中国企业也有论文一并收入。BOSS直聘首席科学家薛延波应邀在大会“人才与管理计算”工作坊上分享了关于职业科学的研究。
相关专家认为,中国由于人口基数大、互联网应用发展成熟等特点,是大数据的主要产出国,如何有效地利用数据,提高现有诸如职位对接、商务对接等的有效率,将真实世界的特点融入到大数据向知识的转化中,亟待大数据挖掘技术的创新。例如,互联网上存在着数亿规模的求职者简历以及岗位招聘信息,有效的数据挖掘技术将大大提升人岗匹配效率,减少耗费比,对国民经济带来良性作用的同时,让每个人都能发挥出自己的价值。