知识图谱技术分享会----有关知识图谱构建的部分关键技术简介及思考

昨天在北理工参加了一场由 雪晴数据网和北京理工大学大数据创新学习中心联合举办的知识图谱分享活动,聆听了一下午报告,可谓是受益匪浅。一下午时间安排的非常饱满,总共三场报告。

不得不说首都的学校就是厉害啊,楼都这么漂亮。

下面我就来分别说说重点和感想。

1.佛学知识图谱构建技术

东南大学 漆桂林教授

1.1 什么是知识?

1.2 知识图谱为搜索引擎带来的补充作用!

1.3知识图谱的几个关键技术

1.data extraction

数据从哪里来?

2.entity matching

就是说怎么知道beijing和北京是一个东西

3.type inference

e.g. China is an instance of country

1.Explicit IsA Relation Detector
2.Category Attributes Generator
3.Instance Type Ranker

以上步骤中包含一些复杂算法,我个人觉的偏工程应用,具体参考ppt,在下载链接中。

1.4 data extraction实战

报告的老师基于以上内容给出了一个课堂小实战训练,让我们直观体验了一下构建知识图谱中的基础性工作,知识抽取,从非结构化数据中抽取结构化内容,这和我们大数据领域中首当其冲的数据清洗步骤是不谋而合的。

实例文本:

*************************************************************************
title:大报国慈仁寺

大报国慈仁寺,俗称报国寺,位于北京市西城区,在广安门内大街路北。
经考证报国寺始建于辽代;明代塌毁,成化二年(1466年)重修,改名慈仁寺,俗称报国寺;清乾隆十九年(1754年)重修,更名为大报国慈仁寺。曾有七进院落,七层殿堂,后有毗卢阁,为当时北京南城最大庙宇。1900年因义和团在此寺设坛,被八国联军用炮轰毁。现全寺已修整一新,辟作“报国寺文化市场”,成为中国收藏活动著名的聚集地。
明清之际学者顾炎武(字亭林)在北京时曾住该寺西院。道光二十三年(1843年)改西院为顾亭林祠。如今在各种古旧书籍、钱币邮票、古玩首饰等的商摊中,祠堂已不可见,只余《顾亭林先生祠记》和《重建顾亭林先生祠记》两块碑文记载当年旧事。
目前每周四为报国寺文化市场交易日。

*************************************************************************
title:法门寺

法门寺,又称法云寺、阿育王寺,位于中国陕西省宝鸡市扶风县城北10公里处的法门镇。始建于东汉末年桓灵年间,距今约有1700多年历史,有“关中塔庙始祖”之称。法门寺因舍利而置塔,因塔而建寺,原名阿育王寺。释迦牟尼佛灭度后,遗体火化结成舍利。1980年以来,法门寺在前任方丈澄观、净一法师的住持下,相继建成大雄宝殿、玉佛殿、禅堂、祖堂、斋堂、寮房、佛学院等仿唐建筑。现任主持为中国佛教协会副会长学诚法师。
=== 建寺 ===
关于建寺时间,从唐代时就已无法准确确定了。有一种说法认为法门寺及真身宝塔始建于古印度孔雀王朝阿育王(前273年~前232年)时期。阿育王统一印度后为了弘扬佛法,将佛的舍利分送世界各地,兴建八万四千塔。中国有十九处,法门寺为第五处,先建塔后建寺。北周以前法门寺名为阿育王寺,寺塔名为阿育王塔。另一种说法受到了出土的汉代瓦当、砖刻的支持,认为法门寺建于东汉桓灵之世。
公元558年,北魏皇室后裔拓跋育曾扩建,并于元魏二年(494年)首次开塔瞻礼舍利。

基于给出的文本文件,进行正则表达式的提取python3脚本:



#-*-coding:utf-8-*-

import re

def read_file(filename):
    with open(filename, encoding='utf-8') as fd:
        for line in fd:
            yield line

if __name__== "__main__":

    filename = "templeArticles.txt"
    title = re.compile('^title:')
    weiyu = re.compile('位于([\\S]+)(,|。){0,1}')
    shijianyu = re.compile('始建于(((?!,|;|。).)+)(,|;|。)')

    for line in read_file(filename):
        # 处理文件每一行文件

        if re.match(title,line):
            print(line[6:-1])
            continue
        if re.findall(weiyu,line):
            print('位于: ' + re.findall(weiyu,line)[0][0])
            continue
        if re.findall(shijianyu,line):
            print('始建于:' + re.findall(shijianyu,line)[0][0])
            continue

处理结果:

1.5 不能简单使用正则的场景

无法用规则抽取的原因:
句式种类繁多,无法找到高质量且匹配多的规则。
只能界定属性值的一个边界。(如:用规则“(,|。){0,1} ([\S]+)担任主持”匹配上述5个句子,能得到“,并由其徒弟佛智法师”和“,之后交由第一世创古仁波切”,但是无法找到法师名字的前边界)

对于这种问题,需要使用多规则来进行抽取,包括但不限于机器学习深度学习等。

1.6 总结

整体给我的直观感觉是,知识图谱的构建工作是需求驱动的,它需要非常多的人工参与才能构建精确,并且能为你的搜索引擎,智能问答系统提供锦上添花的作用。


2.知识图谱应用关键技术及行业应用

这一场略微有广告嫌疑,不过报告老师提到了面向数据的互联网这个新奇的概念。并且突出了互联网本体,实体的概念。本体中突出和强调的是概念以及概念之间的关系。

2.1 本体以及什么是知识图谱

2.2 知识图谱的部分应用

2.3 时代的变化,思维的变化

2.4 大数据应用的挑战—-多源异构数据的融合

这块老师总结的非常到位,我司也面临同样的问题,知识图谱可以解决这两个问题么?我们拭目以待!

2.5 人民的名义—-关系图谱发掘

现场咨询了老师,他说是echarts结合一些其他定制技术做的效果,这块暂时没有拿到视频,是现场手机拍摄 的,大家凑活看吧。


3.中文知识图谱CN-DBpedia构建的关键技术

徐波
复旦大学知识工场实验室

徐老师这个报告真的是干货满满,他讲了非常多的技术细节,包括cn-dpedia的架构,以及我印象比较深刻的cn-dbpedia中知识更新的问题,以及采用深度学习来抽取特征的新思路。

3.1 CN-DBPEDIA系统框架

3.2 知识库实体更新

参考文献

以上三场报告ppt

资料打包下载

http://download.csdn.net/detail/wangyaninglm/9866353

时间: 2024-10-27 11:27:07

知识图谱技术分享会----有关知识图谱构建的部分关键技术简介及思考的相关文章

科普:5G网络关键技术详解

不久前,中国华为公司主推的Polar Code(极化码)方案,成为5G控制信道eMBB场景编码方案.消息一出,在网络上就炸开了锅,甚至有媒体用"华为碾压高通,拿下5G时代"来形容这次胜利.那么,媒体报道是否名副其实,除了编码之外,5G还有哪些关键技术呢? 科普:5G网络关键技术详解 5G通信到底是什么 5G,顾名思义是第五代通信技术,3GPP定义了5G三大场景: 增强型移动宽带(eMBB,Enhance Mobile Broadband),按照计划能够在人口密集区为用户提供1Gbps用

azure-微软云的关键技术有哪些呢??

问题描述 微软云的关键技术有哪些呢?? 微软云的关键技术有哪些呢??微软云的关键技术有哪些呢??微软云的关键技术有哪些呢?? 解决方案 另外,微软还提供了System Center,加上Windows Server和各种软件,你还可以在企业内部搭建完整的私有云平台,更好的是,两者的软件和环境几乎完全相同,你不但可以将你的应用在这两者之间互相迁移,还可以混合使用私有云和公有云. 你可以使用Azure的虚拟网络和Active Dictionary将它们整合在一起. 解决方案二: Azure和国内山寨

中国物联网安全关键技术首次纳入国际标准

此间举行的第二届世界互联网大会上,一份捷报传来.中国自主研发的一项物联网安全关键技术TRAIS被纳入国际标准,这是中国在物联网核心技术RFID领域的首个国际标准,是中国科技企业参与国际标准制定的又一次突破. RFID即无线系统,是构建物联网的关键技术,被认为是21世纪十大重要技术之一,未来产业发展空间广阔.因此,其标准的制定也成为当下发达经济体争夺的焦点. "来自中国的TRAIS核心技术此次被纳入国际标准体系,标志着中国正在深度参与全球重大产业核心技术活动."TRAIS技术项目组组长单

云关键技术及基于Hadoop的云计算模型研究

引言 云计算是由企业界开始发展,然后才进入学术界引起重视的,这与网格计算相反.经过对迄今为止的云计算相关学术论文进行统计分析后,显示学术界对于云 计算的研究主要集中在云技术关键技术方面.云计算研究的关键技术包括虚拟机.安全管理.数据管理.云监测.能耗管理和计算模型等.云计算的计算模型是研究 如何针对某类应用特点提出效率更高的编程方式,目前云计算模型众多,而Hadoop是一个开源的分布式系统基本架构,正日益成为具有较强实用性的开发平 台.淘宝就是国内率先使用Hadoop的公司之一. 1 云计算关键

中国5G关键技术已通过验证 7家公司参与技术研发

9月22日,据工信部消息,首届5G创新发展高峰论坛于2016年9月22日在北京中国国际展览中心顺利召开,IMT-2020(5G)推进组隆重发布了中国5G技术研发试验的第一阶段测试结果. 作为本次论坛的焦点内容,IMT-2020(5G)推进组隆重发布了中国5G技术研发试验的第一阶段测试结果,并向参与该阶段试验的华为.中兴通讯.大唐电信.爱立信.诺基亚上海贝尔.英特尔.三星共7家国内外企业颁发了证书. 在刚刚结束的第一阶段试验过程中,IMT-2020(5G)推进组与各参与单位密切合作,完成了主要5G

中文知识图谱研讨会的学习总结 (上) 图谱引入、百度知心、搜狗知立方

        知识图谱(Knowledge Graph)是当前学术界和企业界的研究热点.中文知识图谱的构建对中文信息处理和中文信息检索具有重要的价值.中国中文信息学会(CIPS)邀请了有约10家从事知识图谱研究和实践的著名高校.研究机构和企业的专家及学者有意参与并发表演讲,下面就是第一届全国中文知识图谱研讨会的学习笔记.         会议介绍地址和PPT下载链接:http://www.cipsc.org.cn/kg1/         第一篇以现有百度知心和搜狗知立方为主,其中文章目录如下

PaperWeekly 第42期 | 基于知识图谱的问答系统关键技术研究 #04

作者丨崔万云 学校丨复旦大学博士 研究方向丨问答系统,知识图谱 领域问答的基础在于领域知识图谱.对于特定领域,其高质量.结构化的知识往往是不存在,或者是极少的.本章希望从一般文本描述中抽取富含知识的句子,并将其结构化,作为问答系统的知识源.特别的,对于不同的领域,其"知识"的含义是不一样的.有些数据对于某一领域是关键知识,而对于另一领域则可能毫无意义.传统的知识提取方法没有考虑具体领域特征.  本章提出了领域相关的富含知识的句子提取方法,DAKSE.DAKSE 从领域问答语料库和特定领

中国人工智能学会通讯——KS-Studio:一个知识计算引擎 1.3 KS-Studio 知识计算引擎

1.3 KS-Studio 知识计算引擎 2012年,中国工程院启动建设"中国工程科技知识中心(CKCEST)"项目1.该项目是我国工程科技领域重要的大数据项目,旨在打通和汇聚各类工程科技数据资源,通过技术分析处理形成知识库,并开发各种应用提供知识服务,推动国家工程科技战略思想库的建设,服务于国家的战略决策. 从数据的性质看,建设知识中心所需的知识是高度结构化的,而分散在各工程科技领域的数据资源绝大部分属于非结构化数据.如何将无序繁杂的文本.图像.视频等原始的非结构化数据加工转化为有序

DataV 2015双十一媒体大屏回顾&技术分享

今年在多个部门共同努力下,阿里集团在2015水立方双十一媒体中心立起了一块宽21米,高10米的LED大屏.DataV 数据可视化小组有幸在这么大一块画布上尽兴创作,并且在这个项目中小组第一次尝试使用了DataV数据可视化引擎来搭建所负责场景,这样的机会实属不易,所以想把其中的点点滴滴和大家分享. 背景简介 先呈上现场效果的几段视频,热个身. 今年的媒体大屏幕分为三大板块,分别是总览大屏,全球大屏,城市大屏.每一个大屏幕都有自己的主题,总览大屏保留了2014年基本的信息点,全球屏是对于今年全球狂欢