行业知识图谱构建与应用PDF版高清版|百度网盘下载

编辑点评:行业知识图谱构建与应用PDF版

行业知识图谱构建与应用PDF版系统总结了知识图谱的理论基础和技术方法,阐明了知识图谱与知识图谱、信息可视化、知识管理的关系。使用科学计量学等相关内容中的同现分析法,快来下载吧。

相关内容部分预览

知识图谱的机遇与挑战

分享肖阳华教授的报告。报告深入剖析了知识图谱的发展历程,系统梳理了知识图谱前半部分的主要成果,分析了知识图谱后半部分的挑战和机遇,以期为实践带来有益参考各个行业的认知智能。

�知识图谱的前半部分

1、传统知识项目

2、大数据知识项目

①大规模的简单知识表示

②知识获取

③基于知识图谱的简单推理

大数据知识工程解决了什么问题?

①语言差距

②缺失的因果链

③碎片化数据的关联与融合

④加深对行业数据的理解和洞察

⑤显着提升机器的自然语言理解水平

⑥基于知识图谱的大规模知识服务

⑦知识图谱可视化已被广泛应用

⑧大数据知识工程理论体系日益完善

�知识图谱的后半部分

1、应用场景变化

2、新趋势

①复杂的应用场景

②深度知识应用

③ 密集的专业知识

④ 数据资源有限

3、机会

4、应对策略

知识表示方面:

①与其他知识表示的协同表示和推理

②知识图谱的多模态表示

③知识图谱的个性化表示

在知识获取方面:

①开发低成本的知识获取方法

②专注于多粒度知识获取

③开展大规模的常识知识获取

④复杂知识获取的机制和方法

应用知识

①知识图谱应用透明性

②基于知识图谱的可解释人工智能

③开发以符号知识为指导的机器学习模型

�总结

知识图谱整体结构说明

知识图谱结构拓扑如图:

企业全数据应用挑战及应对策略:

(1)多源异构数据难以整合

利用知识图谱(本体)对各种数据进行建模,基于动态变化的数据模型(概念-实体-属性-关系)实现统一建模。

(2) 难以动态改变数据架构

使用支持动态更改数据模式的知识图谱的数据存储。

(3) 计算机难以理解非结构化数据

使用信息提取技术。

(4) 数据使用过于专业

(5)分散数据的消费和利用难以统一

在知识融合的基础上,基于语义检索、知识问答、图计算、推理、可视化等技术,提供数据检索/分析/利用的统一平台。

2、知识建模

(1) 以实体为主要目标,对不同来源的数据进行映射和合并。 (实体提取与合并)

(2) 使用属性来表示对不同数据源中实体的描述,形成对实体的全方位描述。 (属性映射与合并)

(3)用关系来描述抽象建模成实体的各种数据之间的关系,从而支持关联分析。 (关系提取)

(4)通过实体链接技术,实现各类数据围绕实体的关联存储。 (实体链接)

(5)用事件机制描述客观世界的动态发展,反映事件与实体之间的关系;并用时间序列来描述事件的发展。 (动态事件描述)

知识建模工具:Protégé(本体编辑器,比较有限)

3、知识提取

知识抽取的主要策略如图(结构化、半结构化和非结构化数据的处理方式不同):

知识抽取中的文本信息抽取主要包括:实体识别、关系抽取、事件抽取、概念抽取。信息提取工具主要有两种:

OpenIE:为开放域抽取信息,关系类型预先未知,基于语言模式抽取,规模大,精度相对较低。典型工具:ReVerb、TextRunner(准确率低,实用性低,一般不用)

CloseIE:提取特定领域的信息,预先定义提取的关系类型,根据领域专业知识进行提取,规模小,精度相对较高。典型工具:DeepDive(主要用于实体识别,缺乏关系/事件/概念的提取)

非结构化文本数据的处理包括以下步骤:

分词、词性标注、语法分析、依存关系分析

NER 命名实体识别、实体链接

关系抽取、事件抽取

其中,事件抽取可分为预定义事件抽取和开放领域事件抽取,行业知识图谱主要是预定义事件抽取。采用模式匹配方法,分为三个步骤:

准备事件触发词汇

候选事件提取:查找带有触发词的句子

事件元素识别:根据事件模板提取对应元素

还有基于机器学习模型的提取:SVM、逻辑回归、CRF、LSTM等:

补充说明,关于知识表示,欢迎浏览我的另一篇文章:基于图模型的智能推荐算法学习笔记,这里不再赘述。

基于数理逻辑的知识表示:RDF(Resource Description Framework)、OWL(Extension of RDF Schema)、SPARQL(RDF Query Language)

基于向量空间学习的分布式知识表示:Rescal, NTN, TransE (Embedding)

4、知识融合

(1) 数据层融合:实体链接技术

Is Equivalence Judgment:给定不同数据源中的实体,判断它们是否指向同一个现实世界实体(实体属性和关系的组合)。

基于实体知识的链接

基于文章主题的链接

包含实体知识和话语主题的链接

实体链接工具:Wikipedia Miner、DBpedia Spotlight等,大部分工作在百科知识库上,基本不支持中文处理。

(2)语义描述层的融合:Schema Mapping

合并概念下位词

概念属性定义合并

当然还有其他需要考虑的,比如多源知识融合、冲突检测与解决、跨语言融合、知识验证等。

例如,人机交互界面用于手动修正错误信息,并以此为种子案例,通过强化学习增强模型的识别准确率和鲁棒性。

5、知识存储

知识图是一种基于图的数据结构。存储方式主要有两种:RDF存储和图数据库。

基于关系数据库的存储

基于原生图的存储

基于混合存储

下面是各大图数据库的对比:

6、知识计算

(1)基于图论的相关算法:

图遍历:广度优先遍历、深度优先遍历

最短路径查询:Dijkstra(Dijkstra 算法)、Floyd(弗洛伊德算法)

寻路:给定两个或多个节点,找出它们之间的关系

权威节点分析:PageRank算法

人群发现:最大流量算法

相似节点发现:基于节点属性和关系的相似性算法

(2) 本体推理:使用本体推理进行新知识发现或冲突检测。

基于表格的操作和改进方法:FaCT++、Racer、Pellet Hermit 等

基于本体的数据访问(Ontology based data access)

基于生产规则的算法(如rete):Jena、Sesame、OWLIM等

基于Datalog转换的方法:KAON、RDFox等

答案集编程

本体知识推理工具:RDFox。

(3) 基于规则的推理:使用规则引擎编写相应的业务规则,通过推理辅助业务决策。

基于知识图谱的基础知识,专家根据行业应用的业务特点定义规则。

引擎根据基础知识和定义的规则,执行推理过程,给出推理结果。

基于规则的推理工具:Drools 规则定义。

7、知识应用

智能问答(基于语义分析的方法+基于信息检索的方法)、语义搜索(基于实体链接)、视觉决策支持(D3.js、ECharts)等。

8、知识图谱的自动构建

可构建地图:如公司地图、产品地图、产品地图、智能预警等。在行业应用中使用知识图谱大致有以下几种方式:

可以在现有工具套件的基础上使用和扩展现有工具套件:LOD2、Stardog

可与各个生命周期过程中的相应工具结合使用,对生命周期中的特定工具进行针对性的开发或扩展

阅读剩余
THE END