《知识发现 科技文献内容挖掘技术研究》吉久明,李楠著|(epub+azw3+mobi+pdf)电子书下载

图书名称:《知识发现 科技文献内容挖掘技术研究》

【作 者】吉久明,李楠著
【页 数】 143
【出版社】 上海:上海科学技术文献出版社 , 2017.09
【ISBN号】978-7-5439-7433-3
【分 类】科技文献-知识管理
【参考文献】 吉久明,李楠著. 知识发现 科技文献内容挖掘技术研究. 上海:上海科学技术文献出版社, 2017.09.

图书封面:

《知识发现 科技文献内容挖掘技术研究》内容提要:

知识管理与知识发现是管理科学与工程学科的重要分支之一,主要研究显现知识和隐性知识的管理、发现与集成,与计算机领域、管理科学与工程领域高度交叉。在当前信息社会进入大数据时代及智慧管理的背景下,知识管理的研究正面临理论、方法、应用的多重挑战,一方面伴随着国家知识产权战略的发展,知识管理的研究也需要嵌入法律及市场等知识应用环境的研究,另一方面还应加强基于信息素养的知识管理技能培养战略和策略研究。知识就是力量,只有当海量知识被高效集成管理时才是真理。因此,知识管理与知识发现相关研究对于提高知识型经济社会的企业管理、社会管理、知识服务的效率和效益具有及其重要的意义。

《知识发现 科技文献内容挖掘技术研究》内容试读

第1章

绪论

1.1研究背景及问题提出

1.1.1研究背景

人类文明发展到今天,仍然有许多未知促使人们不断地探索,半个多世纪以前的问题,如人脑的化学反应机理、有机体是否有意识,至今仍未得到完全解决1,。人们探求未知的途径主要有阅读、实验或调查,在探求未知的过程中,又产生了大量包含知识的信息,这些信息有的留存在人脑中,有的被输出(口头表达、撰写)并储存在特定的文献载体中,且随着信

息技术和社会生活的进步,信息呈爆发式增长。仅中国的科学引文数据库(CSCD)收录的

2008一2012年发表的高水平的有关工程类和化学类的学术论文就达56万多篇,平均每年10万多篇。而学术论文都是由不同的团队或个人独立或协作完成的,大多以一篇论文或图书著作等非结构的形式存储在纸本、数据库或各种机读文件中。存储在人脑或文献载体上的知识在其被再次认识之前是以隐性知识3)的形式存在的,而这类知识对于人类(确切地说是团体或个人)更好地认知世界具有非常重要的意义幻。很久以来,将隐性知识显性化的过程即知识发现过程的研究一直是计算机工程专家的研究热点。

知识发现的主要工作包括:收集整理并保存专家经验知识,建立专家系统,从机构或领域信息中发现知识,也包括针对各种结构、半结构或非结构化的数据挖掘5-1

基于半结构或非结构化文献的数据挖掘工作又被称为基于文献的知识发现(虽然文献是存储信息的载体,但学术界习惯用“基于文献的知识发现”表示“基于文献内容的知识发现”),其主要目标包括以下几个层次:提高标引质量和检索相关性即,揭示文献知识点之间的关联线索2-们,挖掘文献中的隐含知识)。这些目标的成功实现离不开文献的自动语义标引,这样才能有效地挖掘分散存放且没有直观联系的文献中隐含的知识。相关研究还没有有效解决上述问题,大数据时代的到来使得其实现难度加大。语义知识的缺乏是自动标引的难点之一,比较有效的措施是构建领域本体18)。现有领域本体主要包括两类,一类是WordNet,o]、VerbNet或HowNet(简称为Word类本体),另一类是框架语义网络本

2【知识发现科技文献内容挖掘技术研究

体[21-5](简称为FrameNet),前者主要描述词汇概念及概念间相互关系,后者除描述概念及概念间相互关系外,还定义语义配价模型及例句库。研究表明框架语义网络本体具有简单可行的推理机制,更适合应用于基于文献的知识发现领域。框架语义网络本体的基础工作是选择领域术语核心词,在此基础上,建立领域术语之间的关系、例句库及语义配价模型。

Word类领域本体工程主要包括以下两个步骤:

语料

(1)人工选择或发现领域概念术语,并建立概念术语间关系;(2)收集大量的领域语料,参照已有的领域术语词典

本体维护

(如果有,则主要引用其中的术语概念及其描述,或概念间

评估

规则

自动提取

关系;若没有,则无法参考,直接依赖语料),从语料中提取候选术语及相互间关系,由专家审核其必要性和正确性。其后,再进行本体评估,且遵循本体更新机制进行本体维

专家审核

护,如图l.1所示。而FrameNet工程则在自动提取阶段

图1.1领域本体工程框架

增加了例句库及语义配价模板的构建工作。

1.1.2问题的提出

近年来,基于文献的知识发现研究存在以下问题:虽然确立了领域本体的重要地位,但实际大规模的领域本体构建工作尤其是汉语框架网络语义本体工作还远远不够,基于本体语义推理的知识发现机制还不够完善。

具体地讲,已有的本体构建工程存在以下问题:

(1)缺乏对基础语料的评价机制,包括学术影响力评价及语料的领域相关性评价、框架核心词筛选测度等。已有的学术影响力评价方法不足以解决新发表的学术文献的学术影响力评价问题;文献的领域相关性评价即对文献进行学科分类,大规模文献自动分类较少涉及作者关键词分类有效性研究,虽有研究表明基于句子向量的文本相似度算法效果比基于词向量的文本相似度算法的效果要好2],但对句子向量用于无语义相似性的相同领域文本的分类

语料

研究还很少;有关领域框架语义网络本体的词元收集研究,未涉及其领域专指性测度问题。

评估

选择有影响

力的文献

(2)选择框架核心词的策略没有充分发挥学术文献的优势,例句的语义角色标引工作也未充

本体维护

分发挥框架词元的自身优势。

规则

因此,应建立基于文献评价的本体构建框架,如图1.2所示。

专家审核

选择本领域

的文献

已有的知识发现研究存在以下问题:由于缺乏足够的领域本体库支撑,有关基于本体语义推

自动提取术

理的知识发现的实际应用相当少。

语及关系

本书拟对框架语义网络本体构建关键问题

图1,2基于文献评价的领域本体工程框架

第1章绪论|3

及基于本体语义推理的知识发现实际应用可行性展开研究,从而为文献知识发现的自动实现提供较好的方法和模型。由于汉语文本的特殊性,已有的技术都受到中文分词、命名实体识别效果的影响,需要进一步研究有效的文本特征选择及例句选择方案。因此本书选择国

内高水平学术文献数据库一中国科学引文数据库(CSCD)一文献为样本测试方案的有效性,

最后将研究方案应用于导电塑料框架语义网络本体构建及导电塑料制备技术专利文献筛选工作,为专业领域框架语义网络本体的构建提供参考。

1.2国内外研究概况

基于文献的知识发现理论在国内外的研究时间都较长,但国外已开发出如Arrowsmith等基于文献内容的知识发现工具27,,而国内的研究存在一定差距,原因有两个:一是由于国内文献的数字化工作起步较晚;二是因为中英文在语法句法等方面的差异,使得基于中文文献的知识发现存在一定的困难。鉴于支持向量机的优越性能,本书尝试将支持向量机应用于学术文献影响力预测及文本分类。针对文档的特征选择、领域本体库构建的关键步骤(包括:核心词选择、例句语义角色标引及语义配价模板编制)问题的不同特性分别设计相应的解决方案,以实现高效框架语义网路本体库建设的目的。因此,这里将分别介绍基于文献内容的知识发现、支持向量机、文本分类、框架语义网络的国内外研究概况。

1.2.1基于文献内容的知识发现

基于文献内容的知识发现工作常被分为基于相关文献和基于非相关文献的知识发现两种情况:称两篇文献为相关文献即两篇文献关注的主题相同,或存在相同的作者或机构、出版年、出版机构等相同或相近的文献外部特征,或具有相同的参考文献,或被同一篇文献,或同一作者或机构引用等相同或相近的引证特征线索,反之称两篇文献为非相关文献。

“基于相关文献的知识发现”目的在于揭示具有显性相同或相近文献内容特征项文献的不同观点或不同的关注点,揭示具有相同或相近的文献外部特征或引证特征的文献所构成的知识网络或知识图谱。此类知识发现技术主要依赖于统计指标体系为主的词汇共现分析、共同引用或被引分析、共作者(机构)、共出版物等及各种指标的组合分析四]。最近,

Liang Wei等3基于上述指标的知识网络空间模型,研究知识的内聚性和知识创作者的领域限制,引入小世界理论将该方向的研究推到一个新的阶段。

“基于非相关文献的知识发现”由Swanson4,8]报道深海鱼油对于雷诺氏病治疗作用的论文中首次提出,使用“非相关文献”的术语,意在区分其研究方法与已有的基于文献的外部

显性特征关联线索进行知识发现的研究方法的不同。该项工作基于以下三段式的假设:A

引起B(A与B相关),B引起C(B与C相关),则A引起C(A与C相关)。Swanson将世界分为三个层次:物理的世界(World1);基于心理状态或过程的经验世界(Word2);基于问题、理论或其他人类思维的产物等客观知识世界(World3)。第三层次的世界是由人创造的,但其中存在许多远未认知的知识。提出基于信息检索的非相关文献的知识发现方法旨在揭示更多不为人知的但已经存在的知识,这些知识之所以未被发现,是因为人类索引及获

4丨知识发现科技文献内容挖掘技术研究

取信息能力的限制。

Swanson2.]设计的基于非相关文献的知识发现模型包括开放式和封闭式两种:开放式模型主要在科学假设形成阶段,选择感兴趣的课题,意在找到与该课题有关的隐

含知识。以某一主题词I检索得到相关文献集合A,提取与词I共同出现在题目中的术语词

汇形成词汇表B,以B中的词分别检索得到相关文献集合,提取与B词汇表中的词共同出现

在题目中的术语词汇形成词汇表C,进一步借助统计分析方法,可以建立主题词I经由词汇

表B中的某些词与词汇表C中的某些词概念相关的假设知识集合H,如图1.3所示。

含I的文献集合A

词汇表B

词汇表C

假设知识集合H

图1.3开放式的科学假设形成框架

封闭式模型主要用于科学假设的验证阶段,选择假设知识中的两种主题词Ia和Ic,分别检索获得相关文献集合Ba和Bc,并从Ba与Bc中分别提取与Ia和Ic共同出现在同一篇

文献中的术语词汇形成词汇集合B,进一步借助统计分析方法,可以为科学假设建立经由主

题词Ia和Ic找到的词汇集合B中的某些词汇所提供的证据候选集合V,如图1.4所示。

含la的文献集合Ba

词汇表B

含lc的文献集合Bc

图1.4封闭式的科学假设验证框架

之后有学者相继对Swanson的模型进行了修改,分别提出了基于关键词汇组成的短语词频[3]、基于概念3)、基于概念词频[3)、基于领域本体.o的开放式或封闭式知识发现模

型,也有研究探讨选择文献中不同位置的词或概念、集合B中词汇的各种不同选择策略

对知识发现效果的影响。但基于领域本体的知识发现模型[39,实际上是对基于概念词频等所谓的语义关联挖掘的简单推广,未见基于框架语义网络本体的知识发现模型。

冷伏海团队[2首次将Swanson等人的研究介绍到国内,在国家自然科学基金的资助下

针对B词集的选择开展了大量的研究。遗憾的是该团队的工作对国内的基于非相关文献的

隐含知识发现研究的推动不是太大。尽管有人基于Swanson方法开展了某些领域的实证研究[a,),至今仍未出现成熟的可以与Arrosmith系统媲美的基于汉语文献的隐含知识发现系统],对基于领域本体39,2的知识发现模型的后续研究主要转向了基于语义的期刊出版研究[6,47门

我们认为,领域本体构建已经成为各项基于语义应用发展的瓶颈,应加紧开发领域本体库,尤其应该加紧研究领域框架语义网络本体库的建设,并研究基于框架语义网络本体的文

第1章绪论15

含概念表

含概念本体的

B本体属

属性词汇文献

性词汇的

集合

概念表B

文献集合

词汇表C

符合语义配价模板句子中的概念

符合语义配价模板句子中的概念

图1,5基于框架语义网络本体的开放式知识发现模型

献中隐含知识发现的模型,如图1.5所示,由于框架语义网络提供了语义配价模型和例句库,可以将基于概念的挖掘上升到基于句子包的隐含知识挖掘,预期能取得更好的效果。

1.2.2支持向量机

支持向量机(Support Vector Machine,SVMD[8-5是在20世纪90年代发展起来的一种基于结构风险最小化准则的分类学习机模型,是由贝尔实验室的Corinna Cortes和

Vladimir Vapnik受Fisher算法和神经网络感知器算法的启发于l993年创建81],Fisher算法通过寻找两类问题分割面,神经网络感知器将非线性空间映射为线性空间。它通过构造并求解目标函数来获得两类样本数据之间的决策超平面,以保证最小的分类错误率。这一新兴的学习机模型已经在手写数字识别、三维目标识别、人脸识别、文本图像分类、时间序列预测、主成分分析、生物标志、水域物种风险判别等实际问题的应用中,表现出了良好的分类或识别能力。从实际分类效果来看,支持向量机在解决小样本、非线性及高维的模式识别问题方面是目前已知的分类器中效果表现较优的一种机器学习方法。如今,支持向量机及其应用研究已引起越来越多的兴趣和关注,成为机器学习理论和技术领域中的一个新热点。

支持向量机将输入空间的向量按事先选定的非线性映射映射到某个高维的特征空间。在这个空间,一个线性判决面是用特殊的能够保证网络具有高推广能力的特征构建的,如图

1.6所示50

图1.6表明,构建一个最优的超平面只需要考虑较少的训练样本数据,这些样本向量称为支持向量,它们决定了两类之间的最大间隔。若训练集样本被一个最优超平面完全正确地区分开,那么测试集误差概率的期望值就小于支持向量个数的期望值与训练样本个数的比值。即:

E[Pr(error)]E[mmber of support vectors]

(1-1)

number of training vectors

这个上界并没有涉及特征空间的维数,这表明如果能够从训练集找到少量的几个支持向量构建一个最优的分界超平面,即使输入空间是无限维的,超平面的推广能力也会很好。用支持向量机进行分类必然有两种情况:一是所求得的支持向量机能够完全区分两类样本,二是在区分两类样本时存在误差。

6【知识发现科技文献内容挖掘技术研究

Class-1

Ho

uejd-JadKy leundo

H

margin

margin

Wx,+61

Wix+b=0

Class-2

WTx+b=-1

图1.6支持向量机模型示意图

设训练样本集为:

(y1,x1),,(,x),y1∈{-1,1}

(1-2)

称样本集为线性可分的,即:存在向量ω和b,使得:

w·x:+b≥1ify:=1

(1-3)

w·x+b≤1ify,=-1

(1-4)

上式可以改写为:

y(w·x+b)≥1,i=1,…,l,y∈{-1,1}

(1-5)

使得y:(ω·x十b)=1的向量x被称为支持向量,此时,

ω=yax,其中a≥0

=1

寻找支持向量的问题转化为选择适当的核函数和参数,解决以下最优化问题:

ming(w)=号lul2=2oa

s.t.y[wx:+b]-1≥0i=1,2,…,N

(1-7

当训练样本不能被完全区分时,将决策函数调整为:

y(w·x十b)≥1-6,i=1,…,l

6≥0,i=1,…,l

(1-8)

···试读结束···

阅读剩余
THE END