iPIN 研究员李双印博士独家解析:循环聚焦机制如何与主题模型碰撞火花?

雷锋网(公众号:雷锋网) AI 科技评论按:李双印博士曾在香港科技大学攻读博士后,师从香港科技大学计算机系主任杨强教授。他的主要研究方向主要包括数据挖掘、人工智能、文本建模、深度学习,论文曾被 IJCAI、ICDM、UAI 等顶级国际会议收录。李双印作为第一作者的论文《Recurrent Attentional Topic Model》入选 oral presentation,入选口头展示论文(oral),雷锋网AI科技评论与李博士日前进行了交流,并整理成文与读者分享。

李双印博士

李双印在
iPIN 的工牌号为 intern01。在公司里,大家只知道叫他「大师兄」,但他与 iPIN
的渊源,很多在公司实习的研究生们也不甚清楚。这一切最早还要追溯到 2013
年,当时李双印还在中山大学跟随潘嵘教授攻读博士,并在微软亚洲研究院(MSRA)实习,主要的工作是用深度学习的方法实现半结构化文本建模。彼时
iPIN 成立伊始,CEO 杨洋邀请潘嵘教授一同合作,李双印也跟随导师到 iPIN 参与算法研发工作,自然成为了第一号实习生。

雷锋网此前对
iPIN 做过不少覆盖和报道,目前 iPIN
在信息提取、语义认知及检索排序等积累了实践经验,涵盖高考志愿填报、招聘及生涯规划等领域。在李双印看来,iPIN
的业务主要集中人和企业的商业价值挖掘,凭借语义认知平台,将人从繁琐的工作中释放出来,聚焦更具价值的商业决策。「在技术上,我们的进展还是比较突出的,比如文本生成、文本分类、检索排序等、都有很深的基础和经验。」而李双印在
AAAI 2017 上发表的这篇论文,则属于在语义认知方面研究工作的一个探索。

循环机制与聚焦机制在深度神经网络上的应用十分广泛,而李双印之前一直是做主题模型的相关课题,因此他很自然地想到,能否将这两种方法应用于主题模型上,并提出了名为「Recurrent
Attentional Topic Model(简称 RATM)」的新概念。句子作为一种文本信息的基本组成单元,RATM
主要基于文本中句子之间的主题连贯性,利用文档中的单词信息,以及句子间的序列信息对文档进行有效建模。文档建模与分类是一个非常古老的问题,对于它的解决没有止境。不论是之前的基于贝叶斯理论的主题模型,还是当前火热的深度学习技术等,在文本特征提取与分类上,本质上都是提供了一种提取文本特征信息的方法。


AAAI 2017 oral presentation 时,李双印博士介绍了 RATM
如何应用于社会经济图谱,这是一个针对整个经济社会的各个主体,以及主体间关系进行建模和量化的一个庞大系统。其中的各个主体(比如人、职位、学校、公司、行业等),这些比较高层次的信息相当于金字塔的塔顶。而基础概念(类似于百科和
wiki
中的词条)相当于塔底,即语言系统中基础信息的认知、关系以及推理,「缺少这些基础的信息认知,社会经济图谱就像空中楼阁。因此,我们还需要对语言系统中的基础信息进行建模和认知。我们在单词,句子及文本上的建模研究和探索,比如提出
RATM 模型,都是在试图解决社会经济图谱和基础信息之间的鸿沟,并希望能够将社会经济图谱构建的更加完善和落地。」

作为研究性课题,李双印表示目前该论文成果尚未应用于实际场景中。他认为,此工作未来的主要研究方向,依然会集中于充分利用文本特点,如何快速提取有效的文本及句子的特征向量,以及向量的可解释性。此前雷锋网
AI 科技评论在报道国内企业的 AAAI 2017 论文收录情况时,也提及了这篇论文。iPIN CEO
杨洋在接受采访时也表示,他们会尝试将机器在决策中的分析过程以逻辑的形式梳理出来。相信在未来,iPIN 在认知框架上会有更多的尝试和突破。

本文作者:奕欣

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-08-02 02:49:29

iPIN 研究员李双印博士独家解析:循环聚焦机制如何与主题模型碰撞火花?的相关文章

李兴伟博士:乐视网模式存在五大缺陷,直接导致“无形资产快速膨胀”

首都经贸大学李兴伟博士认为乐视网(300104,股吧)的模式存在五大缺陷.他认为该模式首先会直接导致"无形资产快速膨胀".这种膨胀扩张模式就像是在没有出口的高速公路上奔跑的汽车,只要市场上出现好的影视剧你就得购买,不买的话就会影响到分销龙头老大的地位:这样也使得乐视网变成了一个不停地在做"赌石"生意的人,而且不管风险多大,都得不停地"赌"下去.第二是财务结构缺陷.第三个缺陷是无形资产版权来源的成本不可控.第四是现金流冲击.第五个缺陷是无形资产摊销

互联网大数据到来,世纪互联李志霄博士提出三个维度

"我们看现在的Facebook,全球用户数量正在逼近10亿,中国的新浪微博注册用户数量也已经破3亿,腾讯的即时通讯工具活跃用户达到7.1亿,仅次于中国和印度的人口数字.而Pinterest等正在快速成长的图片社交网站正在为互联网带来新的数据流和海量的图片.仅社交网络这一项所产生的数据就已经非常惊人."世纪互联李志霄博士在谈到大数据时代时提出,"用数据爆炸形容今天的IT发展一点也不为过,数据增长永无止境." 根据国际数据公司IDC 2011年发布的Digital Un

百度CEO李彦宏9月14日做客哈尔滨工业大学作主题演讲

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 在哈工大新闻网上,我们看到百度CEO李彦宏9月14日做客哈尔滨工业大学并作主题演讲的图文报道,下面我们一起 来看看吧: "如果只有机会去一个学校招聘的话,我应该去哪个学校?"作为全球领先的中文搜索引擎,百度公司总裁李彦宏给出的回答是"哈工大".9月14日晚,李彦宏"如约"地来到了我校

详解声纹识别:如何正确评价小度在最强大脑中战平人类?|独家解析

雷锋网按:作者陈孝良,博士,声智科技创始人,曾任中科院声学所副研究员和信息化办公室主任,中科院上海高等研究院客座,北京市公安局首届网络应急专家,主要从事声学信号处理和 GPU 深度学习算法研究工作.本文系雷锋网独家首发文章. 百度小度在"最强大脑"比赛中以1:1战平名人堂公认最擅长声音辨别的选手孙亦廷,引发了一些媒体的追踪报道,我们惊喜的同时也发现有些文章的报道是不准确的,这种漫无边际的夸大实质上对百度口碑是不利的.我们始终应该清晰的认识到:人工智能经过半个多世纪的起起伏伏,到如今开始

独家解析:从陈志云事件看香港电视竞争格局

陈志云被廉政公署带走 陈志云一手创办谈话节目<志云饭局>,热播了4年.期间采访过身陷"艳照门"风波的钟欣桐(阿娇) 无线电视广播业务总经理陈志云今早被ICAC带走,协助调查涉及贪污的多宗案件.顿时成为一枚炸弹,将传媒圈和公众圈都炸了.为什么会有如此强烈的反响呢?原因可能在于香港电视市场的乱状已经令公众对这个是非之地产生了极大兴趣.陈志云长期主持节目,也是当红访谈节目<志云饭局>的主持人.成为公众八卦的焦点也非常自然. 另一方面电视业界及传媒圈也对此事件给以了极大

个人对酷六网创始人李善友辞职的解析

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 酷六网创始人李善友近日离职的消息传遍了互联网,对此,各路人士各执己见,这离职的背后究竟有些什么原因在驱使,可能单纯的把战略分歧作为离职的主要因素或许牵强了点吧,这也是大家对其分析得出的主要结论.本人对此也有一定的看法,在对此事件进入深刻了解之后,我认为一下几个因素是促成其离职的主要原因. 第一,在互联网激烈竞争的环境下,战略价值是每一个互联网

天翼,有毒?“校园客户端挂马事件”雷锋网独家解析

12月7日,江苏某高校的大四学生小金(化名)正在准备期末论文,忽然电脑出现蓝屏并自动重启,起初他并没有当一回事,然而一回头却发现舍友的电脑在十分钟之内也重启了三四次,这引起了他的注意. [某受影响当事人电脑截图] 小金想通过贴吧发帖来求助网友,却惊奇地发现:贴吧一页下来基本全是机器蓝屏的帖子,并且周围受影响的同学也越来越多,小金这才意识到:此事并不简单! 近日,知乎网出现了一个名为「如何评价12月6日天翼校园客户端自带木马病毒导致全国大面积win10蓝屏的问题?」的讨论,而以上内容便是宅客频道(

独家解析:数据丢失防护(DLP)究竟是何物?

  随着越来越多关于数据泄露的事件被公开,企业已经意识到关键数据保护对企业的重要意义.特别是在一些研究机构和军事保密机关,对出入人员的管控措施十分严格,不仅不能携带具有拍摄功能的工具,也不许随意携带USB移动存储设备. 一些用户抱怨,之所以会有这些安全防护措施,主要是因为重大数据泄露事件不断发生,公司只好使出各种方式保护研发.合同.财务等机密文件. 此时此刻,数据安全到底如何防护?随着数据泄露引发的危机逐步扩大,企业对数据丢失防护(DLP)产品的需求逐渐加大.事实上,无论是硬件防护,还是文档保护

V5shop独家解析:“网商实名制”是电商发展不可多得的机遇

近日,<网络商品交易及有关服务行为管理暂行办法>(以下简称<办法>)正式出台并开始实施,这是继北京等部分试点城市之后,由国家工商总局颁定的首部有关规范网络交易的全国性措施,之前尘嚣甚上的实名制,在<办法>中最终得到确认:卖家提供真实身份信息,为经营者建立登记档案,要求网络经营者向消费者出具电子化的购货凭证或服务单据,以此作为处理消费投诉的依据. 一石激起千层浪!不少卖家都开始惊慌,他们担心相关部门下一步会不会收税:消费者当然举双手赞成,实名制能有效打击不诚信卖家,售后服