《语义场模型及其在P2P搜索中的应用》王志晓著|(epub+azw3+mobi+pdf)电子书下载

图书名称:《语义场模型及其在P2P搜索中的应用》

【作 者】王志晓著
【页 数】 132
【出版社】 徐州:中国矿业大学出版社 , 2015.01
【ISBN号】978-7-5646-2611-2
【价 格】25.00
【分 类】语义场-语言模型-应用-网络检索-语义场-语言模型-研究
【参考文献】 王志晓著. 语义场模型及其在P2P搜索中的应用. 徐州:中国矿业大学出版社, 2015.01.

图书目录:

《语义场模型及其在P2P搜索中的应用》内容提要:

本书主要包括2部分,分别是语义场模型及语义场模型在P2P搜索中的应用。传统P2P网络基于关键字进行资源搜索,缺乏对语义的支持。本书在构建语义场模型的基础上,提出一种基于语义场的P2P资源组织与搜索机制。语义场体现语义的聚集与分布,而P2P资源具有确定的语义信息。不考虑资源的物理位置,根据语义将其放置到语义场中。资源将按照自身语义在场中有规律地分布,具有相同语义的资源沿等势线聚集,从而实现基于语义场的结构化P2P资源组织。将查询请求视为一种特殊的资源,映射到语义场中。查询请求所在等势线上的资源和查询请求具有相同的语义。该等势线上资源的索引信息由P2P网络中选定的节点管……

《语义场模型及其在P2P搜索中的应用》内容试读

第1章引言

第1章引言

1.1课题背景与意义

P2P网络作为一种应用覆盖网络,由于其可扩展性、健壮性等优

点,成为发展最迅速的应用之一山。从以文件名作为关键字的文件共享系统,如BT,到以用户名为关键字的即时信息(IM),如Skype,

都是P2P网络的实际应用。目前,P2P用户数迅速扩充,P2P流量已

占因特网总流量的70%以上。

自2001年5月万维网创始人Tim Berners-Lee发表The Sematic Web2)以来,语义表示、语义匹配、语义搜索和本体等已成为当前

国内外计算机科学和人工智能领域的研究热点。随着P2P应用的日

益深入,人们可以从P2P网络上获得的资源越来越多。而传统的

P2P网络基于关键字进行资源搜索,缺乏对语义的支持3]。因此,研

究高效的基于语义的P2P资源组织与搜索机制成为一种迫切需求,

本书拟对此进行深入研究。

P2P网络中基于语义的资源组织与搜索机制包含基于语义的资

源描述、组织和管理,基于语义的路由与搜索等多个方面。它们是众多应用研究的共性科学问题和核心支撑技术。例如:

(1)下一代P2P服务

下一代P2P服务将是基于语义理解的服务机制。服务依赖于资

源,服务是资源的外在表现。服务的语义描述、组织和管理离不开能

。1·

语义场模型及其在P2P慢索中的应用

被机器理解的基于语义的资源组织与搜索机制。下一代P2P服务应

该能够准确理解用户请求的语义,快速准确地返回符合要求的服务。

(2)P2P网络中的数据融合

数据作为P2P网络中的重要资源,有效融合的前提是基于语义

的资源表示与组织机制以及语义相似性计算和语义匹配。

(3)基于知识流的对等协同工作

对等团队过去主要是工作级合作,即按照工作流建模和管理。

Zhung H提出知识级的合作[I,即按照知识流建模和管理。离开基于语义的工作对象和资源表示与组织机制不可能实现基于知识流的对等协同工作。

(4)语义网格和知识网格

将基于语义的资源组织与搜索机制进一步延拓,可以成为更大范围应用研究的共性科学问题和核心支撑技术之一。例如,语义网格和知识网格。

综上所述,研究P2P网络中基于语义的资源组织与搜索机制有

助于推动下一代P2P服务,有利于P2P网络中的数据融合等应用的

高效、深入开展,具有重要的理论意义和实际应用价值。本书引入场

理论,构建语义场模型,利用语义场模型解决P2P网络中的资源组织

与搜索问题。

1.2P2P语义搜索

1.2.1研究现状综述

本综述方案从语义描述方法、覆盖网络结构、查询扩展技术、资

源聚类方式以及本体数量5个不同角度对现有P2P语义搜索方法进

行综述,这5个角度最能体现P2P语义搜索方法的本质特征。详细

综述见作者已发表的文献[6]。

(1)语义描述方法

·2·

第1章引言

①VSM或LSI

向量空间模型(Vector Space Model,VSM)[7.8]将资源表示成关键词及其权重的向量,每个关键词是向量的一维,这些关键词集合定义一个多维空间,资源位于多维空间中。一旦将资源描述向量化,就可以采用现有的数学手段对这些向量进行处理。

VSM模型认为关键词间相互独立,不考虑词与词在语义上的联

系。实际上,关键词之间不可避免地存在着相互联系,例如同义词、多义词。关键词间的这种相关性会影响系统性能,使得搜索结果产生偏差。

潜在语义索引(Latent Semantic Indexing,LSI)9]根据关键词的

共现信息探测词条之间隐含的或“潜在”的语义联系。LSI通过奇异

矩阵分解,将矩阵近似映射到一个潜在语义空间上,映射之后的奇异值向量能最大限度发现潜在语义联系,进而消除同义词、多义词的影响,提高资源描述的准确性。潜在语义索引的本质是利用概率模型,从统计分析的角度提取关键词间的语义联系,而不是基于本体概念和逻辑推理,因此只是一种浅层次的统计语义。

②Ontology

本体(Ontology)的概念起源于哲学领域,它对客观世界的事物进行分解,发现其基本组成部分,进而研究客观事物的抽象本质。本体是“概念模型的明确的规范说明]。“概念模型”指思考和描述现实中事物的抽象模型,通常限定在一定的领域,“明确”意味着抽象模型的概念和关系是确定的术语和定义。“规范”说明本体知识是可以被

一个群体识别和接受的。

利用本体可以清晰准确地刻画资源的语义内涵,描述资源间的相互关系,是领域内进行资源共享和互操作的语义基础。本体能够

在语义层次上解决资源描述问题,因此,在P2P中的应用越来越广

泛,如参考文献[11-15]。

(2)覆盖网络结构

·3·

语义场模型及其在P2P搜索中的应用

①传统覆盖网络结构

在P2P语义搜索方法中,部分研究把重点放在语义描述方法、查

询扩展技术等方面,没有过多关注覆盖网络结构,采用的是传统P2P

覆盖网络结构,如参考文献[13]、[14]、[16]等。

②语义覆盖网络

语义覆盖网络(Semantic Overlay Network,SON)i的主要思想

是将P2P节点按照语义信息聚类,以此提高资源搜索性能。在语义

覆盖网络中,语义相近的节点组织在一起,形成SON。每个节点统计

自身资源的语义信息,根据统计结果判断自己归属的SON,并加入该

SON。响应查询请求时,系统有目的性地到符合请求语义的SON中

搜索,从而降低查询代价,提高查询结果的准确度。语义覆盖网络多

采用层次结构。文献[10]提出了一种无监督的分布式SON构建方

法“DESENT”.

语义覆盖网络可以基于非结构化P2P网络,如SemreX1],也可

以基于结构化P2P网络,如TTS-SON18;文献[12]提出了混合结构

的层次化语义覆盖网络;文献[l9]、[20]则基于Super Peer结构构建语义覆盖网络。

③语义小世界

Watts和Strogatz的研究[2表明,包括人类社交网络在内的许多网络都是小世界网络。小世界网络会导致“群居现象”,简单地说就是具有类似兴趣的人通常会相互认识。本书作者所在的课题组曾

利用小世界理论解决P2P环境下电子商务服务发现和广告转发问

题[22[23],收到了很好的效果。为了提高P2P网络的查询性能,降低

网络流量,可以将小世界理论应用到P2P语义搜索中。每个节点将

邻居节点分为两类:短链(short links)和长链(long links)。短链是指与节点自身语义相近的节点,长链则从一类特殊节点中随机选取,这类节点拥有的资源丰富,并且资源集中于某一主题语义上。具有上

述特征的P2P覆盖网络称为语义小世界24幻。在P2P搜索过程中,可

。4·

第1章引言

以从语义相近的短链节点上直接获取可能的搜索结果,也可以通过

长链将搜索请求在P2P网络中快速扩散。P2P网络中采用语义小世

界结构的文献有[22]、[23]、[25]、[26]等。文献[27]采用类似思想

构建了一个语义社会覆盖网络“INGA”。

④语义链网络

语义链网络由P2P及网格领域的专家诸葛海提出。在语义链网

络中,节点与节点之间的语义关系称为语义链28。语义链有因果链、蕴含链、子类型链、相似链、实例链、顺序链和引用链等类型。语义链网络模型根据节点间的语义关系构建覆盖网络,是一个有向网络。

当节点P:加入P2P网络时,在网络中随机选择一个节点P,确定P

和P,的语义关系,把P,作为P,的后继节点。然后,根据语义链推理

规则,得到P,和网络中其他节点的语义关系。在响应用户查询请求

时,根据节点间的语义关系及节点相似性,有目的性地选择可能响应

查询的后继节点。语义链网络可以基于非结构化P2P,也可以基于结

构化P2P29][30。

(3)查询扩展技术

Furnas研究发现,两个人使用相同词汇描述同一事物的概率小于20%31]。因此,必须对用户查询请求进行处理,以提高检索性能。查询扩展(Query Expansion,QE)32]是在初始查询的基础上加入与用户检索词相关的新词,生成更准确的查询请求,弥补用户查询信息

不足的缺陷,改善P2P网络中信息检索的查全率和查准率。

①基于全局或局部分析的查询扩展

全局分析33)是对全部文档中的词或词组进行相关分析,计算每对词或词组间的关联程度,将词或词组按共同发生的频率先行聚类,其后根据词或词组的不同集合对查询进行扩展。局部分析34]利用初次检索得到的与原查询最相关的topk篇文章作为扩展用词的来源,而非全部文档。局部分析法用到的技术有局部聚类、用户相关反馈(如用户日志、历史查询等)、局部上下文分析353]等。

·5·

语义场模型及其在P2P搜索中的应用

②基于本体的查询扩展

全局或局部分析在关键词层次上进行查询扩展,难以充分表达用户查询的语义信息,不能从根本上消除用户查询意图与检索结果之间的语义偏差问题38]。文献[39]在全局分析法和局部分析法的基础上,通过构建语义关联树来进行查询扩展,但效果仍不理想。

鉴于本体在语义描述方面的优势,研究者开始利用本体进行查询扩展。Voorhees最早提出基于本体概念的查询扩展,并利用本体中的同义词和特定的子类进行扩展[4o。文献[41]对基于本体的查询扩展进行了综述。文献[42]专门研究查询扩展中词语一概念相关度的计算。查询扩展常用的本体有两类,一类是通用词汇本体,如

WordNet!3]、HowNet等。这类本体在各个领域都可以广泛使用,但缺乏专业领域的相关知识。另一类是领域本体,该类本体应用范围有限,一般对领域内查询请求进行的扩展非常有效。

(4)资源聚类方式

当前,多数研究都将语义相同的资源聚集在一起,以提高资源搜索性能。资源聚类的具体实现方式可以归结为两类:间接聚类和直接聚类。

①间接聚类

间接聚类一般通过节点聚类达到资源聚类的目的。节点聚类的依据是节点语义描述。节点上一般存储有多种语义信息的资源,按语义信息统计节点上每种资源的数量,将比例最高的资源类对应的语义信息作为节点的语义描述,也可以将节点的语义描述向量化,向

量每一维对应某种语义的资源所占比例。SON就是典型的间接聚

类。采用间接聚类的P2P语义搜索方法还有文献[11]、[12]、[15]、

[24]、[44]等。

②直接聚类

P2P节点资源多样化,分布不均衡,且动态变化,所以很难准确、

完整地通过节点聚类实现资源聚类。直接聚类避开了节点聚类中繁

·6·

···试读结束···

阅读剩余
THE END