行业知识图谱构建与应用PDF版高清版|百度网盘下载
编辑点评:行业知识图谱构建与应用PDF版
行业知识图谱构建与应用PDF版系统总结了知识图谱的理论基础和技术方法,阐明了知识图谱与知识图谱、信息可视化、知识管理的关系。使用科学计量学等相关内容中的同现分析法,快来下载吧。
相关内容部分预览
知识图谱的机遇与挑战
分享肖阳华教授的报告。报告深入剖析了知识图谱的发展历程,系统梳理了知识图谱前半部分的主要成果,分析了知识图谱后半部分的挑战和机遇,以期为实践带来有益参考各个行业的认知智能。
�知识图谱的前半部分
1、传统知识项目
2、大数据知识项目
①大规模的简单知识表示
②知识获取
③基于知识图谱的简单推理
大数据知识工程解决了什么问题?
①语言差距
②缺失的因果链
③碎片化数据的关联与融合
④加深对行业数据的理解和洞察
⑤显着提升机器的自然语言理解水平
⑥基于知识图谱的大规模知识服务
⑦知识图谱可视化已被广泛应用
⑧大数据知识工程理论体系日益完善
�知识图谱的后半部分
1、应用场景变化
2、新趋势
①复杂的应用场景
②深度知识应用
③ 密集的专业知识
④ 数据资源有限
3、机会
4、应对策略
知识表示方面:
①与其他知识表示的协同表示和推理
②知识图谱的多模态表示
③知识图谱的个性化表示
在知识获取方面:
①开发低成本的知识获取方法
②专注于多粒度知识获取
③开展大规模的常识知识获取
④复杂知识获取的机制和方法
应用知识
①知识图谱应用透明性
②基于知识图谱的可解释人工智能
③开发以符号知识为指导的机器学习模型
�总结
知识图谱整体结构说明
知识图谱结构拓扑如图:
企业全数据应用挑战及应对策略:
(1)多源异构数据难以整合
利用知识图谱(本体)对各种数据进行建模,基于动态变化的数据模型(概念-实体-属性-关系)实现统一建模。
(2) 难以动态改变数据架构
使用支持动态更改数据模式的知识图谱的数据存储。
(3) 计算机难以理解非结构化数据
使用信息提取技术。
(4) 数据使用过于专业
(5)分散数据的消费和利用难以统一
在知识融合的基础上,基于语义检索、知识问答、图计算、推理、可视化等技术,提供数据检索/分析/利用的统一平台。
2、知识建模
(1) 以实体为主要目标,对不同来源的数据进行映射和合并。 (实体提取与合并)
(2) 使用属性来表示对不同数据源中实体的描述,形成对实体的全方位描述。 (属性映射与合并)
(3)用关系来描述抽象建模成实体的各种数据之间的关系,从而支持关联分析。 (关系提取)
(4)通过实体链接技术,实现各类数据围绕实体的关联存储。 (实体链接)
(5)用事件机制描述客观世界的动态发展,反映事件与实体之间的关系;并用时间序列来描述事件的发展。 (动态事件描述)
知识建模工具:Protégé(本体编辑器,比较有限)
3、知识提取
知识抽取的主要策略如图(结构化、半结构化和非结构化数据的处理方式不同):
知识抽取中的文本信息抽取主要包括:实体识别、关系抽取、事件抽取、概念抽取。信息提取工具主要有两种:
OpenIE:为开放域抽取信息,关系类型预先未知,基于语言模式抽取,规模大,精度相对较低。典型工具:ReVerb、TextRunner(准确率低,实用性低,一般不用)
CloseIE:提取特定领域的信息,预先定义提取的关系类型,根据领域专业知识进行提取,规模小,精度相对较高。典型工具:DeepDive(主要用于实体识别,缺乏关系/事件/概念的提取)
非结构化文本数据的处理包括以下步骤:
分词、词性标注、语法分析、依存关系分析
NER 命名实体识别、实体链接
关系抽取、事件抽取
其中,事件抽取可分为预定义事件抽取和开放领域事件抽取,行业知识图谱主要是预定义事件抽取。采用模式匹配方法,分为三个步骤:
准备事件触发词汇
候选事件提取:查找带有触发词的句子
事件元素识别:根据事件模板提取对应元素
还有基于机器学习模型的提取:SVM、逻辑回归、CRF、LSTM等:
补充说明,关于知识表示,欢迎浏览我的另一篇文章:基于图模型的智能推荐算法学习笔记,这里不再赘述。
基于数理逻辑的知识表示:RDF(Resource Description Framework)、OWL(Extension of RDF Schema)、SPARQL(RDF Query Language)
基于向量空间学习的分布式知识表示:Rescal, NTN, TransE (Embedding)
4、知识融合
(1) 数据层融合:实体链接技术
Is Equivalence Judgment:给定不同数据源中的实体,判断它们是否指向同一个现实世界实体(实体属性和关系的组合)。
基于实体知识的链接
基于文章主题的链接
包含实体知识和话语主题的链接
实体链接工具:Wikipedia Miner、DBpedia Spotlight等,大部分工作在百科知识库上,基本不支持中文处理。
(2)语义描述层的融合:Schema Mapping
合并概念下位词
概念属性定义合并
当然还有其他需要考虑的,比如多源知识融合、冲突检测与解决、跨语言融合、知识验证等。
例如,人机交互界面用于手动修正错误信息,并以此为种子案例,通过强化学习增强模型的识别准确率和鲁棒性。
5、知识存储
知识图是一种基于图的数据结构。存储方式主要有两种:RDF存储和图数据库。
基于关系数据库的存储
基于原生图的存储
基于混合存储
下面是各大图数据库的对比:
6、知识计算
(1)基于图论的相关算法:
图遍历:广度优先遍历、深度优先遍历
最短路径查询:Dijkstra(Dijkstra 算法)、Floyd(弗洛伊德算法)
寻路:给定两个或多个节点,找出它们之间的关系
权威节点分析:PageRank算法
人群发现:最大流量算法
相似节点发现:基于节点属性和关系的相似性算法
(2) 本体推理:使用本体推理进行新知识发现或冲突检测。
基于表格的操作和改进方法:FaCT++、Racer、Pellet Hermit 等
基于本体的数据访问(Ontology based data access)
基于生产规则的算法(如rete):Jena、Sesame、OWLIM等
基于Datalog转换的方法:KAON、RDFox等
答案集编程
本体知识推理工具:RDFox。
(3) 基于规则的推理:使用规则引擎编写相应的业务规则,通过推理辅助业务决策。
基于知识图谱的基础知识,专家根据行业应用的业务特点定义规则。
引擎根据基础知识和定义的规则,执行推理过程,给出推理结果。
基于规则的推理工具:Drools 规则定义。
7、知识应用
智能问答(基于语义分析的方法+基于信息检索的方法)、语义搜索(基于实体链接)、视觉决策支持(D3.js、ECharts)等。
8、知识图谱的自动构建
可构建地图:如公司地图、产品地图、产品地图、智能预警等。在行业应用中使用知识图谱大致有以下几种方式:
可以在现有工具套件的基础上使用和扩展现有工具套件:LOD2、Stardog
可与各个生命周期过程中的相应工具结合使用,对生命周期中的特定工具进行针对性的开发或扩展
作者:罗小刚
链接:https://www.58edu.cc/article/1522570193031659521.html
文章版权归作者所有,58edu信息发布平台,仅提供信息存储空间服务,接受投稿是出于传递更多信息、供广大网友交流学习之目的。如有侵权。联系站长删除。