【独家干货】深度解析:大数据时代的新闻挖掘

内容摘要李涓子副所长从以时间和知识为核心的新闻挖掘和服务入手,对大数据时代的新闻挖掘工作进行了深度解析。

演讲正文:

非常高兴有机会跟大家交流。虽然我做的是和新闻挖掘相关的工作,但是感觉自己新闻传播方面的知识还非常欠缺,非常希望跟在座的各位老师合作。

我今天的题目是以事件和知识为核心的新闻挖掘与服务。我把我们做的工作和我在这方面浅显的认识介绍给大家。

我们现在处于富感知多源信息交汇的时代,有媒体信息、个人信息、公开信息。我们如何去更好的利用这些信息是我们现在一个问题。过去的新闻传播是用户与媒体之间弱交互关系。

现在用户可以感受现实,根据所看到的内容去写新闻,跟媒体同样处于大数据环境下,媒体和用户的交互是快捷的,交互性很强。

在这种情况下,媒体怎么产生高质量的、用户关心的新闻呢?媒体的传播形式是一种,不管媒体的生产方式和传播路径,媒体的内容都是最根本的保证。创新是我们的工作。

这些信息可以帮助我们干什么?

我们可以分析大数据,高速快捷的发布有说服力的数据。我们通过对新闻的理解可以对这些数据可视化,更好的理解这些大数据。

其次,我们如何利用大数据环境下产生的数据,从数据里面发掘知识、挖掘有价值的内容,为以后更好的数据生产服务。

我今天讲的主要是第三点的内容。

我们希望获取和组织在线的动态数据流,把它变成计算机可以理解、用户也可以理解的结构化内容。我们对数据的处理产生多维的结构化的新闻内容。

在产生内容的过程中给这些数据增加意义,更好的连接,让他更好的为用户服务。

要实现这样一个过程需要很多技术支撑,它肯定是一个交叉的学科,不仅需要自然源处理的技术,还需要对数据组织技术、以及与万维网和挖掘相关的技术。

我们组是清华大学计算机系知识工程组,利用数据挖掘和引用外部技术来支撑我们相关的研究。目前我们在专利和科技文献、新闻、维基知识、跨源知识的处理上做了一些相关的工作。

这些新闻的内容如何更好的为我们服务呢?

首先,一篇新闻能够给我们提供哪些语义信息帮助我们更好的组织这些新闻呢?通过对新闻源数据的提取,可以给新闻加标签、做新闻的分类,相似新闻的查找等。

新闻如果是一些实体名称,我们可以和已有的数据库连接,提供对这个实体相关的知识条目,可以让用户更好的理解新闻。

在当前互联网环境下对新闻的利用,我们做了在线新闻的语义搜索。现在大家搜索新闻反馈回来是一堆的新闻。

怎么去分析我们关心的这个新闻里面都在说什么呢?

我们在上面加了一层,我们可以把它返回到网页中的新闻做一个分析,这时候我们可以去分析现在这些新闻在说什么,涉及到哪些人。这是在线信息采集和分析的工作。我们把它叫做Smart Search。

面向重大事件的新闻分析及可视化。这是两会期间的报道,这里面有一些话题,包括反腐、恐怖事件等。我们可以以话题的形式来组织这些新闻。

我们可以知道这些话题涉及到哪些实体,不仅可以分析到和事件相关的实体,还可以涉及到具体的话题、大家对事件和新闻的处理等,因为我们参加新华社新闻标准制订工作。他在组织新闻的时候,希望以事件来组织。

我们希望去建立这样一个新闻的内容管理系统,一个面向事件和新闻对新闻进行融合的系统。在这里面,我们参加了欧盟合作框架的一个项目:多元知识抽取(Xlike),通过多源对数据采集,按照事件对报道的媒体、涉及到的实体、用户关心的事件做组织和分析。

这里面设计了两个系统:一个是NewsDragon,一个是EventRegistry。

比如说习近平访问美国,这个事件和报道的相关新闻会组织在这个事件里面,系统会给这个事件一个ID。下次再搜索习近平的时候,返回的就是习近平访问美国事件,而不是一篇一篇新闻。

Xlike是由六个国家参加的欧盟框架项目,它现在已经采集的数据有十万个源以上。这是一个交叉课题的研究,既涉及到自然源处理,还涉及到语义技术,还涉及到信息挖掘技术。

在这里面有一个跨语言的标注和跨语音的集成。通过对知识的糅合,可以把不同语言的新闻按照实体和事件组织起来,这个时候用户得到的是全球相关的新闻。最后在跨语言的集成上可以做各种的分析。

第一个是NewsDragon,它处理的是在一个月内在线识别多种语言的报道,包括新闻和社会媒体。还可以进行多维数据的统计,以及新闻数据的可视化工作。

用户可以定制一些自己关心的实体或者是关健词。如果不定制的话,系统将显示当前流行的实体和关健词。点击到这里面,可以对相关实体进行跟踪。在地图上会显示有哪些地方在报道和这个实体相关的新闻。

有什么样的语言、报道的机构是什么。在每个事件里面有若干个新闻,都在说和这个事件相关的新闻。

同样也可以做事件跟踪。如果用户关心某一个事件,可以设置这个事件的关健词,也可以跟踪。

还可以做关健词的跟踪。如果在这里面显示关健词,我想看看别人怎么说和这个关健词相关的事情,点到这个关健词以后,所有和这个关健词相关的实体都会跟着更新。我们就会跟踪很多我们感兴趣的内容。

我们可以在这里面显示和这些统计相关的信息。这个时间点点击到不同的时候,可以显示在不同的时间点里面,全世界哪些地方有在这个时间点发了这个新闻。

之后如果我们关心这个新闻是什么,我们可以进一步点击,得到新闻对应的内容。对于媒体也是一样,我们可以把内容和统计数据做一个关联,让用户更好理解这些数据从哪来。

这是我们一个系统,这个系统在斯洛文尼亚做了测试,不同新闻社里面有很多给他们提供新闻数据源的系统。

NewsDragon也作为一个采集的系统在这里面试运行。之后他们得到了这样一个结论。帮他可以在短时间内改善他的新闻覆盖率。他能够很快的找到他觉得值得报道的新闻,他这个新闻很快的写出来,或者是转载出来。可以加快新闻报道时间,并且报道更全面的新闻。

另外一个例子是Bloomberg,他们用在个性化推荐里面。我们做的是跨语言的。有些人看到Bloomberg是英文的版面。如果这个用户也懂德文,我们可以找相似的新闻,把相似的新闻也推荐给他。

我们这个系统也可以去做,用户有他的微博,个性化推荐的时候,这个多元的东西是不是可以推荐给微博的受众。这是加了多元的推荐之后,会提高他的点击率。

这是事件的分布图,这个事件里面涉及到的关键概念、实体和关键词。其中有热点事件、热点组织、热点位置。

搜了奥巴马之后,系统给出的是搜索相关事件的结果。显示出来有八千多个事件和奥巴马是相关的。他会把这些事件列出来。他会显示事件的时间、涉及到的实体,大家如果感兴趣的话可以点击进去看事件具体的新闻报道。

这是我们在欧盟合作框架里面的工作。

我们如何把现在的新闻变成以后可以利用的可以提供预测的新闻。就是如何把现在的新闻转换成知识。

我们做的工作就是把新闻建立事件知识库。每个新闻都有一个专题,每个专题当热点事件发生的时候,会有滚动新闻,这个滚动新闻可以作为这个事件之后产生的知识。

比如说地震之后,地震报道、援助、重建的话题。有的地震就会有海啸、核辐射,我们可以把已经发生的新闻信息作为未来相似事件产生之后,会有哪些主题,这时候我们可以来挖掘这个事件,为今后相似事件做服务。

这里面我们做了事件表示和分析,事件和用户深刻内容的关联性。我们希望看媒体报道和用户报道之间是不是有相互的影响。或者是用户在产生这么多评论是针对这个事件里面的哪些主题在进行评论。

我们还会把新闻里面的实体和知识图谱进行连接,去构建事件知识库,来进行事件搜索的服务。

我们认为事件发生以后,会有很多不同主题描述这个事件,我们希望不同事件可能会有不同主题,从新闻集合里面可以把这些主题攫取出来。

通过主体和实体链接。现在凤凰网的很多新闻下面都有评论,我们也可以把评论的信息采集下来。新浪直接把微博里评论的信息连接过去。这个时候可以做新闻和评论的对齐。

我们做了事件的建模和实体话题模型。我们分析一个事件里面有哪些主题,我们希望把这样一个过程建成增量似的事件学习过程。一个地震产生了,我们可以学习。

另外一个地震也产生了,在两个不同事件下,把知识进行集成。慢慢我们对地震这个事件就会知道它会有哪些话题。

当一个新闻产生,就会出动这个话题,这个话题下会有什么样结果。另外可以做事件的持续分析和可视化。

对于媒体和用户生成内容,微信、微博、评论、博客这都是用户生成的内容。对于一个事件的系列报道,会有很多的新闻,同时也会带着大量的用户生成内容。

我们作为新闻传播来说,我们希望我们的新闻对用户影响有多少,用户的生成内容是不是会对这个事情的新闻报道有影响,我们是不是要写一些新闻去反应用户在这个报道里面的主题。

一个是新闻和用户生成内容的分析,用户相互影响的分析,我们也学习了一些评价用户生成内容对新闻的影响,我们把这些指标根据我们的理解给出一些统计的信息。把用户感兴趣的内容推荐给用户。

马航事件,我们会把马航相关事件报道搜出来,在马航事件里面,我们会看他新闻报道的情况。在马航里面会有什么样的话题产生,话题分布是什么样的。

在每个不同话题里面涉及到实体的分布和新闻分布的情况。这样你可以更好的对马航事件做理解。

我们搜索乔布斯之后,就会展现和乔布斯相关的事件。我们去搜一个人、一个组织、一个事件的时候,会为关心这个事件的人提供这个人、这个组织他的历史事件,这时候也可以给他提供一些素材。

当一个新闻产生大量的评论,我们会看这里面涉及到哪些话题,这些话题带来评论的热度是多少。我们希望当有一个事件产生之后,我们可以得到对他事件的关系做一个理清。通过这个系统帮助他理清这里面涉及到的事件和主题之间的关系。

我们还建立了为新闻服务的跨语言的知识图谱。融合现在百度百科、互动百科、中英文的维基百科,我们希望把这些内容结构化,按知识工程的技术去处理。

我再去搜索自然灾害的时候就会把地震的、海啸的都搜索出来。海啸和地震都是和自然灾害相关的事件。我们可以按照知识去组织这样一些事件。

这些关健词虽然没有出现在相关新闻里面,也可以把这些事件找出来。目前我们知识图谱里面已经有了八十多万个概念,涉及到降级八百万的实例。他可以找着事件之间的上下位关系,我们可以去做推理的搜索。

我们如何利用现在存在的知识,限定领域的知识也是非常关键的。

比如说一个电影领域的数据,我们希望这些评论之后,我们对一个电影,我们希望哪两个人在一起,他去一起拍电影会带来更好的效果。

如果我们把评论的数据映射到知识图谱上就可以更好的分析,这些统计数据背后如何去解释?

社会化新闻传播性分析也是我们做的工作的一方面,新闻媒体上的新闻还是具有权威性的,一些用户生成的也是不能小看的。

我们希望研究新闻媒体和用户生成之间的关系,发展用户和新闻媒体之间的关系,更好的把更事实的东西介绍给用户。

我们组还有一部分人做社会网络挖掘。这里面涉及到的社会影响力分析,动作用户之间的交互行为预测用户之间相互的关系是什么。

在学术圈里面他可以预测师生关系、同事关系、合作者关系,同事里面会预测上司下级之间的关系、员工与员工之间的关系。

富感知多源信息交汇的大数据环境,为新闻的智能化处理带来了机遇。

我们希望利用数据挖掘和知识库的技术为大数据的分析提供有力的技术支撑,也希望能共同为国家的新闻传播事业的发展做出一点贡献。

虽然我们跟新华社也有一些合作,跟国际的传媒组织也有一些合作。但是我们还是为缺乏新闻传播领域知识所困扰。

我们希望建立起来一种合作关系,我们很多做的工作都是我们想着对新闻会有用,但是它真正有没有用,我们希望从理论上进一步跟各位老师合作。产生更有用的应用。

我比较关心的是对于新闻事件组织和管理,怎么转化成为事件传播可用的知识。在分析专业新闻与用户生成之间的关系,我们希望用更专业的方法使我们的分析更有说服力。

数据挖掘是一个技术,希望我们挖掘的东西更贴近新闻传播领域的需求,怎么让它发挥它的商业价值。这是我关心的几个问题。谢谢大家!

原文发布时间为:2017-02-27

时间: 2024-12-23 21:51:14

【独家干货】深度解析:大数据时代的新闻挖掘的相关文章

大数据时代的新闻报道

一个大规模生产.分享和应用数据的时代正在开启.在互联网的世界中,人类每天在社交网络.电子商务与移动通信等平台上产生的数据要以"PB"来计数.大数据正在影响人类生活的方方面面."大数据时代的经济学.政治学.社会学和许多科学门类都会发生巨大甚至是本质上的变化和发展,进而影响人类的价值体系.知识体系和生活方式."①在这样的浪潮之下,新闻业也不可避免地受到冲击.数据新闻,又称数据驱动新闻,是新闻机构应对大数据技术冲击的应对之策.英国的 <卫报>.德国的Zeit

深度剖析大数据时代保险业的发展

如同每一个传统行业,保险也会被互联网严重冲击,这一点连保险行业都认同.保险和互联网结合的序幕已经拉开,未来还有会上演些什么?我说说我的看法. 第一幕 渠道之变:保险网销 刚刚结束的淘宝聚划算六月理财日,泰康人寿的一款产品旺财一号在为期三天的活动中总销量八千八百六十万,是六月理财日销售额最高的单品.这个数字对于很多快消行业电商是个值得兴奋的数字.但是对于2012年总保费规模754亿.折合每天2.07个亿的泰康来说,这没什么可稀奇,甚至有些平淡.保险网销,这只是一个开始. 渠道之困 传统保险行业一直

CIO时代APP微讲座:南京邮电大学李涛深度解读大数据时代的数据挖掘

3月13日下午,南京邮电大学计算机学院.软件学院院长.教授李涛在CIO时代APP微讲座栏目作了题为<大数据时代的数据挖掘>的主题分享,深度诠释了大数据及大数据时代下的数据挖掘. 众所周知,大数据时代的大数据挖掘已成为各行各业的一大热点. 一.数据挖掘 在大数据时代,数据的产生和收集是基础,数据挖掘是关键,数据挖掘可以说是大数据最关键也是最基本的工作.通常而言,数据挖掘也称为Data Mining,或知识发现Knowledge Discovery from Data,泛指从大量数据中挖掘出隐含的

李涛:深度解读大数据时代的数据挖掘

3月13日下午,南京邮电大学计算机学院.软件学院院长.教授李涛在CIO时代APP微讲座栏目作了题为<大数据时代的数据挖掘>的主题分享,深度诠释了大数据及大数据时代下的数据挖掘. 众所周知,大数据时代的大数据挖掘已成为各行各业的一大热点. 一.数据挖掘 在大数据时代,数据的产生和收集是基础,数据挖掘是关键,数据挖掘可以说是大数据最关键也是最基本的工作.通常而言,数据挖掘也称为Data Mining,或知识发现Knowledge Discovery from Data,泛指从大量数据中挖掘出隐含的

让地球一定深度“透明”:大数据时代的“玻璃地球”

如果地球像玻璃一样透明,我们可以清楚看到地球内部的一切,这将是怎样一幅景象? "大数据时代,利用信息技术使地质结构和地质过程可视化的'玻璃地球'计划有望带来地质研究.矿产勘察和工程勘察的巨大变革."日前,中国地质大学(武汉)地矿信息系统研究所教授吴冲龙接受<中国科学报>记者采访时如是说. 让地球变得透明 使地球表层一定深度"像玻璃一样透明"一直是地质学家们的梦想.目前,业内人士认为,"玻璃地球"是一项基础性的地质信息系统工程,可被看作

【独家干货】金融大数据的法律实践

内容摘要 首先,王新锐简要分析了大数据时代用户数据的价值,并就用户个人信息的分类及处理环节进行总结,提出个人.监管者.媒体对此的关注点. 之后,王律师以立法框架.实际案例和业内实践三大部分为线索,通过"2014年3·15曝光鼎盛.大唐红旗等生动案例具体解释前期提到的各项相关法律条文,并分享以"数据脱敏.数据整合.内部隔离"为代表的业内最佳实践经验. 演讲全文: 今天我讲三大部分: 第一,概述.概述是为了让大家知道我们后面讲的东西是为了什么,把大家放在一个语境里,我们要把基本的

【干货】推进大数据时代的诚信立法,打造诚信体系

黄新华:大家上午好,我下面跟大家讲<推动大数据时代的诚信立法,打造诚信体系>.现在诚信立法尚未列入政府的规划,更没有纳入人大的立法视野,我们仅仅是在呼吁呐喊阶段. 大数据是对现有信息数据的搜集.加工.处理,应用现代科学技术的手段进行数据的处理.大数据需要一个诚信的基础.如果没有诚信,大数据就是空中楼阁. 政府的信息可能涉及到国家机密:个人信息可能涉及到商业秘密.个人隐私权等.如果没有合法的权利和途径取得这些信息,大数据如"无米之炊". 已取得的数据又如何保证其真实性?如果数

独家干货|基于大数据的人体组织微结构的解析与构建

◆ ◆ ◆ 导读  清华大数据思享会医疗大数据系列之"基于大数据的人体组织微结构的解析与构建"于2016年09月22日下午在清数D-LAB成功举办. 深圳艾科赛龙公司创始人赵小文深刻阐述了医学大数据的技术架构,以及对骨骼.血管等人体组织微结构的量化简析和构建的方法,并将这种方法延展到蛋白结构的量化解析和构建上,为再生医学的发展奠定了个性化的组织工程学基础.以下为演讲全文: (感谢主办方提供演讲速记及照片,速记整理|刘道全) ◆ ◆ ◆ 一.技术趋势 医学大数据的架构具有很强的扩展性,在

陆金所计葵生: 深度解析大数据和AI对未来金融影响

近日,陆金所联席董事长兼CEO计葵生在北京大学数字金融研究中心"数字金融的中国时代"第二届年会上发表主题演讲,深度解析了大数据和AI对金融的影响.计葵生认为,大数据和AI理财能增加市场透明度,让机构更精准服务投资者,帮助客户分散投资风险,提高金融运行效率,支持实体经济发展. 计葵生认为,大数据和AI将对金融业产生巨大影响.如帮助机构从多维度去了解个人借款方的信用状况,快速作出判断."只需要几分钟甚至几秒钟来作出判断可否借钱给他,这会增多借款人的借款机会."人工智能和