内容摘要李涓子副所长从以时间和知识为核心的新闻挖掘和服务入手,对大数据时代的新闻挖掘工作进行了深度解析。
演讲正文:
非常高兴有机会跟大家交流。虽然我做的是和新闻挖掘相关的工作,但是感觉自己新闻传播方面的知识还非常欠缺,非常希望跟在座的各位老师合作。
我今天的题目是以事件和知识为核心的新闻挖掘与服务。我把我们做的工作和我在这方面浅显的认识介绍给大家。
我们现在处于富感知多源信息交汇的时代,有媒体信息、个人信息、公开信息。我们如何去更好的利用这些信息是我们现在一个问题。过去的新闻传播是用户与媒体之间弱交互关系。
现在用户可以感受现实,根据所看到的内容去写新闻,跟媒体同样处于大数据环境下,媒体和用户的交互是快捷的,交互性很强。
在这种情况下,媒体怎么产生高质量的、用户关心的新闻呢?媒体的传播形式是一种,不管媒体的生产方式和传播路径,媒体的内容都是最根本的保证。创新是我们的工作。
这些信息可以帮助我们干什么?
我们可以分析大数据,高速快捷的发布有说服力的数据。我们通过对新闻的理解可以对这些数据可视化,更好的理解这些大数据。
其次,我们如何利用大数据环境下产生的数据,从数据里面发掘知识、挖掘有价值的内容,为以后更好的数据生产服务。
我今天讲的主要是第三点的内容。
我们希望获取和组织在线的动态数据流,把它变成计算机可以理解、用户也可以理解的结构化内容。我们对数据的处理产生多维的结构化的新闻内容。
在产生内容的过程中给这些数据增加意义,更好的连接,让他更好的为用户服务。
要实现这样一个过程需要很多技术支撑,它肯定是一个交叉的学科,不仅需要自然源处理的技术,还需要对数据组织技术、以及与万维网和挖掘相关的技术。
我们组是清华大学计算机系知识工程组,利用数据挖掘和引用外部技术来支撑我们相关的研究。目前我们在专利和科技文献、新闻、维基知识、跨源知识的处理上做了一些相关的工作。
这些新闻的内容如何更好的为我们服务呢?
首先,一篇新闻能够给我们提供哪些语义信息帮助我们更好的组织这些新闻呢?通过对新闻源数据的提取,可以给新闻加标签、做新闻的分类,相似新闻的查找等。
新闻如果是一些实体名称,我们可以和已有的数据库连接,提供对这个实体相关的知识条目,可以让用户更好的理解新闻。
在当前互联网环境下对新闻的利用,我们做了在线新闻的语义搜索。现在大家搜索新闻反馈回来是一堆的新闻。
怎么去分析我们关心的这个新闻里面都在说什么呢?
我们在上面加了一层,我们可以把它返回到网页中的新闻做一个分析,这时候我们可以去分析现在这些新闻在说什么,涉及到哪些人。这是在线信息采集和分析的工作。我们把它叫做Smart Search。
面向重大事件的新闻分析及可视化。这是两会期间的报道,这里面有一些话题,包括反腐、恐怖事件等。我们可以以话题的形式来组织这些新闻。
我们可以知道这些话题涉及到哪些实体,不仅可以分析到和事件相关的实体,还可以涉及到具体的话题、大家对事件和新闻的处理等,因为我们参加新华社新闻标准制订工作。他在组织新闻的时候,希望以事件来组织。
我们希望去建立这样一个新闻的内容管理系统,一个面向事件和新闻对新闻进行融合的系统。在这里面,我们参加了欧盟合作框架的一个项目:多元知识抽取(Xlike),通过多源对数据采集,按照事件对报道的媒体、涉及到的实体、用户关心的事件做组织和分析。
这里面设计了两个系统:一个是NewsDragon,一个是EventRegistry。
比如说习近平访问美国,这个事件和报道的相关新闻会组织在这个事件里面,系统会给这个事件一个ID。下次再搜索习近平的时候,返回的就是习近平访问美国事件,而不是一篇一篇新闻。
Xlike是由六个国家参加的欧盟框架项目,它现在已经采集的数据有十万个源以上。这是一个交叉课题的研究,既涉及到自然源处理,还涉及到语义技术,还涉及到信息挖掘技术。
在这里面有一个跨语言的标注和跨语音的集成。通过对知识的糅合,可以把不同语言的新闻按照实体和事件组织起来,这个时候用户得到的是全球相关的新闻。最后在跨语言的集成上可以做各种的分析。
第一个是NewsDragon,它处理的是在一个月内在线识别多种语言的报道,包括新闻和社会媒体。还可以进行多维数据的统计,以及新闻数据的可视化工作。
用户可以定制一些自己关心的实体或者是关健词。如果不定制的话,系统将显示当前流行的实体和关健词。点击到这里面,可以对相关实体进行跟踪。在地图上会显示有哪些地方在报道和这个实体相关的新闻。
有什么样的语言、报道的机构是什么。在每个事件里面有若干个新闻,都在说和这个事件相关的新闻。
同样也可以做事件跟踪。如果用户关心某一个事件,可以设置这个事件的关健词,也可以跟踪。
还可以做关健词的跟踪。如果在这里面显示关健词,我想看看别人怎么说和这个关健词相关的事情,点到这个关健词以后,所有和这个关健词相关的实体都会跟着更新。我们就会跟踪很多我们感兴趣的内容。
我们可以在这里面显示和这些统计相关的信息。这个时间点点击到不同的时候,可以显示在不同的时间点里面,全世界哪些地方有在这个时间点发了这个新闻。
之后如果我们关心这个新闻是什么,我们可以进一步点击,得到新闻对应的内容。对于媒体也是一样,我们可以把内容和统计数据做一个关联,让用户更好理解这些数据从哪来。
这是我们一个系统,这个系统在斯洛文尼亚做了测试,不同新闻社里面有很多给他们提供新闻数据源的系统。
NewsDragon也作为一个采集的系统在这里面试运行。之后他们得到了这样一个结论。帮他可以在短时间内改善他的新闻覆盖率。他能够很快的找到他觉得值得报道的新闻,他这个新闻很快的写出来,或者是转载出来。可以加快新闻报道时间,并且报道更全面的新闻。
另外一个例子是Bloomberg,他们用在个性化推荐里面。我们做的是跨语言的。有些人看到Bloomberg是英文的版面。如果这个用户也懂德文,我们可以找相似的新闻,把相似的新闻也推荐给他。
我们这个系统也可以去做,用户有他的微博,个性化推荐的时候,这个多元的东西是不是可以推荐给微博的受众。这是加了多元的推荐之后,会提高他的点击率。
这是事件的分布图,这个事件里面涉及到的关键概念、实体和关键词。其中有热点事件、热点组织、热点位置。
搜了奥巴马之后,系统给出的是搜索相关事件的结果。显示出来有八千多个事件和奥巴马是相关的。他会把这些事件列出来。他会显示事件的时间、涉及到的实体,大家如果感兴趣的话可以点击进去看事件具体的新闻报道。
这是我们在欧盟合作框架里面的工作。
我们如何把现在的新闻变成以后可以利用的可以提供预测的新闻。就是如何把现在的新闻转换成知识。
我们做的工作就是把新闻建立事件知识库。每个新闻都有一个专题,每个专题当热点事件发生的时候,会有滚动新闻,这个滚动新闻可以作为这个事件之后产生的知识。
比如说地震之后,地震报道、援助、重建的话题。有的地震就会有海啸、核辐射,我们可以把已经发生的新闻信息作为未来相似事件产生之后,会有哪些主题,这时候我们可以来挖掘这个事件,为今后相似事件做服务。
这里面我们做了事件表示和分析,事件和用户深刻内容的关联性。我们希望看媒体报道和用户报道之间是不是有相互的影响。或者是用户在产生这么多评论是针对这个事件里面的哪些主题在进行评论。
我们还会把新闻里面的实体和知识图谱进行连接,去构建事件知识库,来进行事件搜索的服务。
我们认为事件发生以后,会有很多不同主题描述这个事件,我们希望不同事件可能会有不同主题,从新闻集合里面可以把这些主题攫取出来。
通过主体和实体链接。现在凤凰网的很多新闻下面都有评论,我们也可以把评论的信息采集下来。新浪直接把微博里评论的信息连接过去。这个时候可以做新闻和评论的对齐。
我们做了事件的建模和实体话题模型。我们分析一个事件里面有哪些主题,我们希望把这样一个过程建成增量似的事件学习过程。一个地震产生了,我们可以学习。
另外一个地震也产生了,在两个不同事件下,把知识进行集成。慢慢我们对地震这个事件就会知道它会有哪些话题。
当一个新闻产生,就会出动这个话题,这个话题下会有什么样结果。另外可以做事件的持续分析和可视化。
对于媒体和用户生成内容,微信、微博、评论、博客这都是用户生成的内容。对于一个事件的系列报道,会有很多的新闻,同时也会带着大量的用户生成内容。
我们作为新闻传播来说,我们希望我们的新闻对用户影响有多少,用户的生成内容是不是会对这个事情的新闻报道有影响,我们是不是要写一些新闻去反应用户在这个报道里面的主题。
一个是新闻和用户生成内容的分析,用户相互影响的分析,我们也学习了一些评价用户生成内容对新闻的影响,我们把这些指标根据我们的理解给出一些统计的信息。把用户感兴趣的内容推荐给用户。
马航事件,我们会把马航相关事件报道搜出来,在马航事件里面,我们会看他新闻报道的情况。在马航里面会有什么样的话题产生,话题分布是什么样的。
在每个不同话题里面涉及到实体的分布和新闻分布的情况。这样你可以更好的对马航事件做理解。
我们搜索乔布斯之后,就会展现和乔布斯相关的事件。我们去搜一个人、一个组织、一个事件的时候,会为关心这个事件的人提供这个人、这个组织他的历史事件,这时候也可以给他提供一些素材。
当一个新闻产生大量的评论,我们会看这里面涉及到哪些话题,这些话题带来评论的热度是多少。我们希望当有一个事件产生之后,我们可以得到对他事件的关系做一个理清。通过这个系统帮助他理清这里面涉及到的事件和主题之间的关系。
我们还建立了为新闻服务的跨语言的知识图谱。融合现在百度百科、互动百科、中英文的维基百科,我们希望把这些内容结构化,按知识工程的技术去处理。
我再去搜索自然灾害的时候就会把地震的、海啸的都搜索出来。海啸和地震都是和自然灾害相关的事件。我们可以按照知识去组织这样一些事件。
这些关健词虽然没有出现在相关新闻里面,也可以把这些事件找出来。目前我们知识图谱里面已经有了八十多万个概念,涉及到降级八百万的实例。他可以找着事件之间的上下位关系,我们可以去做推理的搜索。
我们如何利用现在存在的知识,限定领域的知识也是非常关键的。
比如说一个电影领域的数据,我们希望这些评论之后,我们对一个电影,我们希望哪两个人在一起,他去一起拍电影会带来更好的效果。
如果我们把评论的数据映射到知识图谱上就可以更好的分析,这些统计数据背后如何去解释?
社会化新闻传播性分析也是我们做的工作的一方面,新闻媒体上的新闻还是具有权威性的,一些用户生成的也是不能小看的。
我们希望研究新闻媒体和用户生成之间的关系,发展用户和新闻媒体之间的关系,更好的把更事实的东西介绍给用户。
我们组还有一部分人做社会网络挖掘。这里面涉及到的社会影响力分析,动作用户之间的交互行为预测用户之间相互的关系是什么。
在学术圈里面他可以预测师生关系、同事关系、合作者关系,同事里面会预测上司下级之间的关系、员工与员工之间的关系。
富感知多源信息交汇的大数据环境,为新闻的智能化处理带来了机遇。
我们希望利用数据挖掘和知识库的技术为大数据的分析提供有力的技术支撑,也希望能共同为国家的新闻传播事业的发展做出一点贡献。
虽然我们跟新华社也有一些合作,跟国际的传媒组织也有一些合作。但是我们还是为缺乏新闻传播领域知识所困扰。
我们希望建立起来一种合作关系,我们很多做的工作都是我们想着对新闻会有用,但是它真正有没有用,我们希望从理论上进一步跟各位老师合作。产生更有用的应用。
我比较关心的是对于新闻事件组织和管理,怎么转化成为事件传播可用的知识。在分析专业新闻与用户生成之间的关系,我们希望用更专业的方法使我们的分析更有说服力。
数据挖掘是一个技术,希望我们挖掘的东西更贴近新闻传播领域的需求,怎么让它发挥它的商业价值。这是我关心的几个问题。谢谢大家!
原文发布时间为:2017-02-27